impala为什么比hive快

如题所述

举报该问题

推荐答案 2019-03-30

Impala自称数据查询效率比Hive快几倍甚至数十倍，它之所以这么快的原因大致有以下几点：

真正的MPP查询引擎。

使用C++开发而不是Java，降低运行负荷。

运行时代码生成（LLVM IR），提高效率。

全新的执行引擎（不是Mapreduce）。

在执行SQL语句的时候，Impala不会把中间数据写入到磁盘，而是在内存中完成了所有的处理。

使用Impala的时候，查询任务会马上执行而不是生产Mapreduce任务，这会节约大量的初始化时间。

Impala查询计划解析器使用更智能的算法在多节点上分布式执行各个查询步骤，同时避免了sorting和shuffle这两个非常耗时的阶段，这两个阶段往往是不需要的。

Impala拥有HDFS上面各个data block的信息，当它处理查询的时候能够在各个datanode上面更均衡的分发查询。

另外一个关键原因是，Impala为每个查询产生汇编级的代码，当Impala在本地内存中运行的时候，这些汇编代码执行效率比其它任何代码框架都更快，因为代码框架会增加额外的延迟。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/WWX7vWBvztWWWv7vXzj.html

第1个回答 2015-05-02

hive主要是走mapreduce。这个是hadoop框架的一个应用，使用java写的，，Impalad分为Java前端与C++处理后端

相似回答

impala和hive的区别答：3、所使用的内存不同：Impala: 在遇到内存放不下数据时，会直接返回错误，而不会利用外存，这使用得Impala目前处理Query会受到一定的限制，最好还是与Hive配合使用。Impala在多个阶段之间利用网络传输数据，在执行过程不会有写磁盘的操作（insert除外）。Hive: 在执行过程中如果内存放不下所有数据，则会...

大数据运算的三种引擎是什么?有什么区别?答：1)Hive，披着SQL外衣的Map-Reduce。Hive是为方便用户使用Map-Reduce而在外面封装了一层SQL，由于Hive采用了SQL，它的问题域比Map-Reduce更窄，因为很多问题，SQL表达不出来，比如一些数据挖掘算法，推荐算法、图像识别算法等，这些仍只能通过编写Map-Reduce完成。2) Impala：Google Dremel的开源实现（Apache ...

impala并发设置答：impala并发设置通过查了Impala的代码，出现这种报错一般是由于两种情况造成：一种情况是可用内存不足；另一种情况是impalaservicepool已经满了。Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执...

大数据查询分析技术有哪些?答：Impala是对Hive的一个补充，可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop，用来进行大数据实时查询分析。Hive 适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询，Impala给数据人员提供了快速实验，验证想法的大数据分析工具，可以先使用Hive进行数据转换处理，之后使用Impala在Hive处理好...

imPala会数据丢失吗答：基于内存计算，对内存依赖性较大改用C++编写，意味着维护难度增大基于hive，与hive共存亡，紧耦合稳定性不如hive，不存在数据丢失的情况。

hive,impala,kfk,hbase,mitaka的关系是怎样的答：hive与impala在查询分析这部分,hive明显的支持程度要比impala高,提供了很多内部函数，并且支持UDAF,UDF的方式从数据库特性角度来看，hive与hbase的对比,hive不能修改数据，只能追加的方式，hbase允许增加和删除数据,hive不支持索引，impala和hive都是没有存储引擎的，hbase算是有自己的存储引擎。在使用层面...

技术选型 - OLAP大数据技术哪家强?答：Impala 使用 Hive的元数据, 完全在内存中计算。是CDH 平台首选的 PB 级大数据实时查询分析引擎。Impala 的缺点也很明显，首先严重依赖Hive，而且稳定性也稍差，元数据需要单独的mysql/pgsql来存储，对数据源的支持比较少，很多nosql是不支持的。但是，估计是cloudera的国内市场推广做的不错，Impala在国内...

IMPALA常用命令COMPUTE STATS简述答：IMPALA的 COMPUTE STATS 是做啥的和HIVE的ANALYZE TABLE类似，这个命令主要也是为了优化查询，加快查询的速度。本来IMPALA是依靠HIVE的ANALYZE TABLE的，但是这个命令不是很好用同时不稳定，所以IMPALA自己实现了个命令完成相同功能。语法例子效果如下，没有用过COMPUTE INCREMENTAL STATS的分区是 -1 执行 ...

什么是impala,如何安装使用Impala答：一、Impala简介Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。二、Impala安装1.安装要求(1)软件要求Red...

大家正在搜

hive和impala在技术上的区别 hive和impala区别 presto为什么比hive快 impala是什么意思 hbase和hive的区别 hive impala impala和hive的关系 impala不依赖hive impala查询hive

impala为什么比spark快

简述impala和hive的不同

impala 的sql 与hive完全相同吗

测试比较 Hive, impala 和 shark/spar...

hive和impala用一种语言吗

impala怎么判断从hive里刷新那部分元数据

impala与hive区别之汉字字符串长度的不同问

基于spark SQL之上的检索与排序对比性能测试