大数据spark 和 hodoop 这两个什么情况？未来哪个会取代哪个？

如题所述

推荐答案 2015-09-29

Hadoop包括MapReduce和HDFS，目前很火的Spark，如果说代替，只是会代替Hadoop中的MapReduce。Spark在任务调度和数据可靠性方面，确实比MapReduce要快很多，而且支持将数据缓存到内存中，下次查的时候直接基于内存访问。

Spark:
是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速, Spark 是一种与 Hadoop
相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark
启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽
管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop
文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室
(Algorithms,Machines,and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。
虽然 Spark 与 Hadoop 有相似之处，但它提供了具有有用差异的一个新的集群计算框架。首先，Spark
是为集群计算中的特定类型的工作负载而设计，即那些在并行操作之间重用工作数据集（比如机器学习算法）的工作负载。为了优化这些类型的工作负
载，Spark 引进了内存集群计算的概念，可在内存集群计算中将数据集缓存在内存中，以缩短访问延迟.
在大数据处理方面相信大家对hadoop已经耳熟能详，基于GoogleMap/Reduce来实现的Hadoop为开发者提供了map、reduce原
语，使并行批处理程序变得非常地简单和优美。Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如
map,filter, flatMap,sample, groupByKey, reduceByKey, union,join,
cogroup,mapValues,
sort,partionBy等多种操作类型，他们把这些操作称为Transformations。同时还提供Count,collect,
reduce, lookup,
save等多种actions。这些多种多样的数据集操作类型，给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的
Data Shuffle一种模式。用户可以命名，物化，控制中间结果的分区等。可以说编程模型比Hadoop更灵活.追问

零基础学习运维合适还是hadooo合适呢？未来前景呢？

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/WeeOXetvWzzjvj7OWet.html

相似回答

既然Spark比Hadoop性能好很多,Hadoop未来发展方向是什么?答：因此，Spark需要一个第三方的分布式存储，也正是因为这个原因，许多大数据项目都将Spark安装在Hadoop之上，这样，Spark的高级分析应用程序就可以使用存储在HDFS中的数据了 与Hadoop相比，Spark真正的优势在于速度，Spark的大部分操作都是在内存中，而Hadoop的MapReduce系统会在每次操作之后将所有数据写回到物理存...

在大数据学习中Hadoop和Spark哪个更好就业答：Hadoop与Spark都是大数据计算框架，但是两者各有自己的优势，Spark与Hadoop的区别主要有以下几点：1、编程方式Hadoop的MapReduce在计算数据时，计算过程必须要转化为Map和Reduce两个过程，从而难以描述复杂的数据处理过程；而Spark的计算模型不局限于Map和Reduce操作，还提供了多种数据集的操作类型，编程模型比Ma...

Hadoop3.0将出,Spark会取代Hadoop吗答：1、稳定性方面，由于代码质量问题，Spark长时间运行会经常出错，在架构方面，由于大量数据被缓存在RAM中，Java回收垃圾缓慢的情况严重，导致Spark性能不稳定，在复杂场景中SQL的性能甚至不如现有的Map/Reduce。2、不能处理大数据，单独机器处理数据过大，或者由于数据出现问题导致中间结果超过RAM的大小时，常常...

hadoop和spark哪个好答：对于需要处理大规模数据集、对计算性能要求不是特别高的场景，Hadoop是一个很好的选择。而对于需要快速迭代开发、处理复杂数据分析任务、以及利用机器学习算法的场景，Spark可能更加合适。此外，随着技术的发展和需求的不断变化，Hadoop和Spark也在不断地融合和发展，未来可能会有更多的交叉应用场景。因此，在...

hadoop和spark哪个好答：诞生的先后顺序，hadoop属于第一代开源大数据处理平台，而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。计算不同spark和hadoop在分布式计算的底层思路上，其实是极为相似的，即mapreduce分布式运算模型：将运算分成两个阶段，阶段1-map，负责从上游拉取数据后各自运算，然后将...

spark是大数据生态下哪个组件的替代方案?答：Spark是Hadoop生态下MapReduce的替代方案。Spark是一种快速、通用、可扩展的大数据处理引擎，可以用于批处理、流处理、交互式查询和机器学习等多种应用场景。与Hadoop生态下的MapReduce相比，Spark有更高的处理速度和更好的性能，能够更好地处理复杂的数据处理任务。Spark还支持多种编程语言和数据源，有更广泛...

hadoop spark 学哪个答：建议学习Hadoop和Spark两者都有价值，但要根据实际需求选择。Hadoop是一个大数据处理的基础框架，主要用于数据存储和分布式计算。它提供了分布式文件系统，用于存储大规模数据，并通过MapReduce编程模型进行数据处理和分析。Hadoop在大数据领域具有极高的稳定性和可靠性，因此广泛应用于企业级的大数据处理场景。Spark...

hadoop,storm和spark的区别,比较答：和Spark相反,这个是把数据传递给过程。两个框架都用于处理大量数据的并行计算。Storm在动态处理大量生成的“小数据块”上要更好(比如在Twitter数据流上实时计算一些汇聚功能或分析)。Spark工作于现有的数据全集(如Hadoop数据)已经被导入Spark集群,Spark基于in-memory管理可以进行快讯扫描,并最小化迭代算法的全局I/O操作...

Spark与Hadoop MapReduce大比拼,谁实力更强答：Spark与Hadoop MapReduce在业界有两种说法：一是 Spark 将代替 Hadoop MapReduce，成为未来大数据处理发展的方向 ;二是 Spark 将会和 Hadoop 结合，形成更大的生态圈。其实 Spark 和 Hadoop MapReduce 的重点应用场合有所不同。相对于 Hadoop MapReduce 来说，Spark 有点“青出于蓝”的感觉，Spark 是...

大家正在搜

大数据spark和hadoop 大数据spark是什么 hadoop和spark hadoop和spark的关系 spark和hadoop的区别 spark大数据技术基于spark的大数据分析 spark大数据技术与应用 spark大数据处理技术