究竟是什么让Redshift比Hive快10倍

如题所述

举报该问题

推荐答案 2015-04-26

ããç©¶ç«æ¯ä»ä¹åå äº§çäºå¦æ¤æ¬æ®çéåº¦ï¼æç½åå¨Quoraä¸æåºäºè¿ä¸ªé®é¢ï¼å¹¶å¾å°äºReynold Xinçè§£çï¼

ããRedshiftéç¨äºä¸æçå«åParAccelçå¹¶è¡æ°æ®åºå®ç°æºå¶ãææ³å¨å¾å¤å·¥ä½æå¢ä¸ï¼ä½ ä¼åç°å¤§å¤æ°å¹¶è¡æ°æ®åºå¼æè¦æ¯Hiveå¿«ãæ¥ä¸æ¥ï¼æå°ç»åºçæ¡ï¼å¹¶è§£éå¶ä¸çæäºåå ãè¯·æ³¨æçæ¯ï¼è½ç¶è¯¥çæ¡éå¯¹çæ¯ParAccelï¼å¶ä¸çå¤§é¨åå ç´ ä¹éç¨äºVerticaãGreenplumãOracleRACçå¹¶è¡æ°æ®åºã

ããå¨çæ¡ä¸å¢ï¼æå°ä½¿ç¨ä¸ä¸ªå¯äºæ¢çæ¯è¯âå¹¶è¡æ°æ®åºâãâå³ç³»åæ°æ®åºâåâåæåæ°æ®åºâã

ããæ¯èµ·å¹¶è¡æ°æ®åºï¼Hiveå¨å¯æ©å±æ§ãçµæ´»åº¦æ¹é¢é¥é¥é¢åãä¾å¦ï¼Facebookä½¿ç¨Hiveæ°æ®ä»åºè·¨è¶æåä¸ä¸ä¸ªèç¹ãè¯´èµ·çµæ´»åº¦ï¼Hiveè®¾è®¡çåè¡·æ¯ä¸ä¸äºç³»ååå¨ç³»ç»ï¼HDFSãHBaseãS3ï¼éåä½¿ç¨ï¼å¹¶è½å¤æ¯æå¤ç§è¾å¥æ ¼å¼ï¼åç¼©ãæªåç¼©ãAvroãçº¯ææ¬ãJSONï¼ã

ããææ©å±åé«çµæ´»åº¦å¨ç»ä½ å¸¦æ¥ä¾¿å©çåæ¶ï¼å´ä¹é»ç¢äºä½ æå»ºæ§è½æ´å¥½çæ¥è¯¢å¼æãæ¥ä¸æ¥ï¼æå°åä¸¾åªäºç¹å¾ä¼å½±åæ¥è¯¢æ§è½ï¼

ããæ°æ®æ ¼å¼ï¼æ°æ®ä»¥ç±»ä¼¼çº¯ææ¬æä»¶ï¼ç¸å¯¹æªä¼åçå½¢å¼åå¨å¨HDFSä¸ãHive ä½ä¸å¨å¤çæ°æ®ä¹åï¼éè¦åè±å¤§éæ¶é´ä»ç¡¬çä¸è¯»åæ°æ®ï¼åååºååè¿äºæ°æ®ã

ããåèµ·ä»»å¡çç³»ç»å¼éï¼Hadoop MapReduce ä½¿ç¨å¿è·³æºå¶ï¼heartbeatsï¼å¶å®ä½ä¸è®¡åï¼æ¯é¡¹ä»»å¡ä½ä¸ºä¸ç¬ç«çJVMè¿ç¨åèµ·ãå¨Hadoop MapReduce ä¸ï¼ä»ä»æ¯åèµ·ä¸é¡¹ä½ä¸å°±éè¦å åç§éï¼å¨ç§çº§æ¶é´åä½åï¼æ¯æ æ³è¿è¡ä»»ä½è¿ç¨çãç¸åï¼å¹¶è¡æ°æ®åºæ¥ææç»è¿ç¨æçº¿ç¨æ± ï¼å®ä»¬è½å¤å¤§å¤§åå°ä»»å¡å®æååèµ·æéè¦çç³»ç»å¼éã

ããä¸é´æ°æ®ç©å vsæ°æ®ä¼ è¾ï¼Hive ä½¿ç¨æ¥æäºé¶æ¨¡å(MapåReduce)çMapReduceæ¥æ§è¡ãéå¸¸ä¸ä¸ªå¤æçSQLæ¥è¯¢è¢«æ å°ä¸ºMapReduceçå¤ä¸ªé¶æ®µï¼ä¸åé¶æ®µçä¸é´æ°æ®å¨ç¡¬çä¸ç©åãå¹¶è¡æ°æ®åºåç½®æç¨äºæ§è¡SQLæ¥è¯¢çå¼æï¼æ§è¡æ¥è¯¢æ¶ï¼è¯¥å¼æå¨æ¥è¯¢æä½ç¬¦åæ°æ®æµï¼steram dataï¼ä¹é´è·¨èç¹ä¼ éæ°æ®ã

ããåæ°æ®æ ¼å¼ï¼åæ°æ®åºå°æ°æ®æç§åå¼çæ ¼å¼è¿è¡åå¨ãå¨å¸åçæ°æ®ä»åºä¸ï¼æ¯å¼ æ°æ®è¡¨è½å¤åå¨æç¾ä¸ååï¼èå¤§å¤æ°æ¥è¯¢ä»æ¥æ¾å°æ°åãè®©æä»¬æ¥èèä¸ä¸å¦ä¸æ¥è¯¢ï¼è¦æ¥æ¾çæ¯æ²å°çæ¯å®¶åºçè¥ä¸é¢ãå®ä»éè¦æ¥æ¾ä¸¤ä¸åï¼ååºçç¼å·ãæ¯ä»¶ååçé¶å®ä»·ï¼æèè¿æéå®æ¥æï¼ãä»¥åå¼åå¨æ°æ®ï¼æ§è¡æ¥è¯¢æ¶ï¼å¼æå¯ä»¥è·³è¿ä¸ç¸å³çåãè¿æ ·å¯ä»¥åå°ä¸ç¾æ¬¡çç¡¬çI/Oãæ¤å¤ï¼æååå¨æ°æ®è½å¤å¤§å¤§å¢å åç¼©æ¯çã

ããåæ¥è¯¢å¼æï¼é¤äºä¸é¢æå°çæåå¼åå¨çæ°æ®æ ¼å¼ï¼è¿å¯ä»¥æåæå»ºæ¥è¯¢æ§è¡å¼æï¼è¯¥å¼æå¨åæåå·¥ä½è´è½½æ¹é¢å¾å°äºè¾å¥½çä¼åãå¶ä¸çæå·§åæ¬ï¼ææç©åï¼late materializationï¼ãç´æ¥æä½åç¼©è¿çæ°æ®ãå©ç¨ç°ä»£CPUæä¾çåéåæä½ï¼SIMDï¼ã

ããæ´å¿«çS3è¿æ¥ï¼å¨è¿éæå°ç»åºä¸ä¸ªå¤§èççæµï¼AWSå¯è½å·²ç»ä¸ºä»ä»¬çRedshiftå®ä¾å®ç°äºä¸ä¸ªæ¯æ®éS3è½å¤æä¾çæ´é«å¸¦å®½çS3æ´ä½è´è½½ã

ããæéè¦ç³æï¼æä»¬ååè®¨è®ºçè¿äºå ç´ æ¯åºäºHiveå½åçæ¬ï¼2013å¹´2æï¼ãæ¯«æ ç½®çï¼Hiveç¤¾åºå°ä¼æ¨è¿å¼åå·¥ä½ï¼å¹¶è§£å³å¶ä¸çä¸äºé¾é¢ã

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/ezzejOtXOeBOBzX7Oe.html

相似回答

为什么Redshife渲染器的渲染速度比Hive快这么多答：Koichi Fujikawa近日对比了Redshift与Hive，描述了这一基准测试，Koichi发现Redshift竟然比Hive快10倍？蓝海创意云分享。我们设计的查询能够在Hadoop和Redshift上以对等的方式运行，我们连接了4个表做全盘扫描。在我们的第一个数据集（300GB）上，该查询在1分钟内完成。令我们异常惊讶的是，在Hadoop上，与...

s3与redshift之间怎么通信答：究竟是什么原因产生了如此悬殊的速度，有网友在Quora上提出了这个问题，并得到了ReynoldXin的解答：Redshift采用了专有的叫做ParAccel的并行数据库实现机制。我想在很多工作情境中，你会发现大多数并行数据库引擎要比Hive快。接下来，我将给出答案，并解释其中的某些原因。请注意的是，虽然该答案针对的是Pa...

大数据技术有哪些答：1.可视化分析。数据可视化无论对于普通用户或是数据分析专家，都是最基本的功能。数据图像化可以让数据自己说话，让用户直观的感受到结果。2.数据挖掘算法。图像化是将机器语言翻译给人看，而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据，挖掘价值。这些算法一...

什么是数据库答：即这个互联网世界就是数据世界。数据的来源有很多，比如出行记录、消费记录、浏览的网页、发送的消息等等。除了文本类型的数据，图像、音乐、声音都是数据。数据库是一个按数据结构来存储和管理数据的计算机软件系统。数据库的概念实际包括两层意思：（1）数据库是一个实体，它是能够合理保管数据的“仓库”...

大数据分析的8大趋势答：Hadoop花费的时间要比现有技术长20倍,所以Intuit也在尝试另一个大规模数据处理器Apache Spark及其配套的 Spark SQL查询工具。Loconzolo说:“Spark具有快速查询、制表服务和分组功能。它能在把数据保留在Hadoop内部的前提下,还将数据处理得十分出色。”5.Hadoop的结构化查询语言(SQR, StructuredQuery Language):更快,更...

数据库开发工具有哪些?答：Navicat Premium 是一套可创建多个连接的数据库管理工具，用以方便管理 MySQL、Oracle、PostgreSQL、SQLite、SQL Server、MariaDB 和 MongoDB 等不同类型的数据库，它与阿里云、腾讯云、华为云、Amazon RDS、Amazon Aurora、Amazon Redshift、Microsoft Azure、Oracle Cloud 和 MongoDB Atlas等云数据库兼容。...

如何快速成为大数据工程师答：3.数据仓库和ETL工具数据仓库和ETL经验对于数据工程师至关重要。像Redshift或Panoply这样的数据仓库解决方案，以及ETL工具，比如StitchData或Segment都非常有用。另外，数据存储和数据检索经验同样重要，因为处理的数据量是个天文数字。4.基于Hadoop的分析(HBase，Hive，MapRece等)对基于ApacheHadoop的分析有...

数据工程师是做什么工作内容答：数据仓库和ETL经验对于数据工程师至关重要。像Redshift或Panoply这样的数据仓库解决方案，以及ETL工具，比如StitchData或Segment都非常有用。此外，数据存储和数据检索经验同样重要，因为处理的数据量是个天文数字。4.基于Hadoop的分析（HBase，Hive，MapReduce等）对基于Apache Hadoop的分析有深刻理解是这个领域...

目前哪些NoSQL数据库应用广泛,各有什么特点答：亚马逊计划为其产品和服务提供更强大的EMR支持,包括它的RedShift数据仓库、新公布的Kenesis实时处理引擎以及计划中的NoSQL数据库和商业智能工具。不过AWS还没有自己的Hadoop发行版。ClouderaCloudera有开源Hadoop的发行版,这个发行版采用了Apache Hadoop开源项目的很多技术,不过基于这些技术的发行版也有很大的进步。Cloudera为...

大家正在搜

零是什么让什么 35比7多4倍是什么意思比3多2倍的数是什么比9多7倍的数是什么让0.5是什么意思?三不让是什么是什么让这样是什么让你如此三让是什么

red-shifted是什么？似乎与物理波这部分有关。

用了redshift渲染软件，渲染速度太快了，这是为啥？

s3与redshift之间怎么通信

impala为什么比hive快

hive中的表为什么会昨天跑的快,今天就跑的特别慢，同样的s...

Redshift渲染器和Irya哪个好用？哪个渲染速度快？

hive的Hive常用优化方法