spark和hadoop的区别

如题所述

推荐答案 2022-09-20

spark和hadoop的区别：诞生的先后顺序、计算不同、平台不同。
诞生的先后顺序，hadoop属于第一代开源大数据处理平台，而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。
计算不同spark和hadoop在分布式计算的底层思路上，其实是极为相似的，即mapreduce分布式运算模型：将运算分成两个阶段，阶段1-map，负责从上游拉取数据后各自运算，然后将运算结果shuffle给下游的reduce，reduce再各自对通过shuffle读取来的数据进行聚合运算spark和hadoop在分布式计算的具体实现上，又有区别；hadoop中的mapreduce运算框架，一个运算job，进行一次map-reduce的过程；而spark的一个job中，可以将多个map-reduce过程级联进行。
平台不同spark和hadoop区别是，spark是一个运算平台，而hadoop是一个复合平台（包含运算引擎，还包含分布式文件存储系统，还包含分布式运算的资源调度系统），所以，spark跟hadoop来比较的话，主要是比运算这一块大数据技术发展到目前这个阶段，hadoop主要是它的运算部分日渐式微，而spark目前如日中天，相关技术需求量大，offer好拿。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/vtOzzjjOzt7BezXezOO.html

相似回答

hadoop与spark的区别是什么?答：首先，Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。同时，Hadoop还会索引和跟踪这些数据，让大数据处理和分析效率达到...

hadoop和spark的区别答：平台不同spark和hadoop区别是，spark是一个运算平台，而hadoop是一个复合平台（包含运算引擎，还包含分布式文件存储系统，还包含分布式运算的资源调度系统），所以，spark跟hadoop来比较的话，主要是比运算这一块大数据技术发展到目前这个阶段，hadoop主要是它的运算部分日渐式微，而spark目前如日中天，相关技术...

spark和hadoop的区别答：spark和hadoop的区别如下：1、诞生的先后顺序：hadoop属于第一代开源大数据处理平台，而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。2、计算不同：spark和hadoop在分布式计算的具体实现上，又有区别；hadoop中的mapreduce运算框架，一个运算job，进行一次map-reduce的过程；而...

2分钟读懂大数据框架Hadoop和Spark的异同答：Hadoop:布式批处理计算强调批处理用于数据挖掘、析 Spark:基于内存计算源集群计算系统目让数据析更加快速, Spark 种与 Hadoop 相似源集群计算环境两者间存些同处些用同处使 Spark 某些工作负载面表现更加优越换句说Spark 启用内存布数据集除能够提供交互式查询外优化迭代工作负载 Spark Scala 语言实现 ...

hadoop和spark的都是并行计算,有什么相同和区别?答：相同点都是基于MR的原理来实现的。不同点前者基于磁盘+内存，磁盘占得比重比较大，而后者侧重于内存+磁盘，内存占得比重比较大，这也是为什么Hadoop没spark速度快的根本原因，spark基于内存来做MR，而Hadoop侧重于落地到磁盘来做MR。

Spark可以完全替代hadoop吗答：Hadoop和Spark均是大数据框架，都提供了一些执行常见大数据任务的工具，但确切地说，它们所执行的任务并不相同，彼此也并不排斥虽然在特定的情况下，Spark据称要比Hadoop快100倍，但它本身没有一个分布式存储系统而分布式存储是如今许多大数据项目的基础，它可以将 PB 级的数据集存储在几乎无限数量的普通...

在大数据学习中Hadoop和Spark哪个更好就业答：Hadoop与Spark都是大数据计算框架，但是两者各有自己的优势，Spark与Hadoop的区别主要有以下几点：1、编程方式Hadoop的MapReduce在计算数据时，计算过程必须要转化为Map和Reduce两个过程，从而难以描述复杂的数据处理过程；而Spark的计算模型不局限于Map和Reduce操作，还提供了多种数据集的操作类型，编程模型比...

2分钟读懂大数据框架Hadoop和Spark的异同答：Hadoop和Spark都是集群并行计算框架，都可以做分布式计算，它们都基于MapReduce并行模型。Hadoop基于磁盘计算，只有map和reduce两种算子，它在计算过程中会有大量中间结果文件落地磁盘，这会显著降低运行效率。而Spark基于内存计算（一个task会在一个分片上以流水线的形式执行，中间不会再分配内存，避免内存被...

spark与hadoop相比,存在哪些缺陷答：常常出现RAM空间不足或无法得出结果。然而，Map/Reduce运算框架可以处理大数据，在这方面，Spark不如Map/Reduce运算框架有效。不能支持复杂的SQL统计；目前Spark支持的SQL语法完整程度还不能应用在复杂数据分析中。在可管理性方面，SparkYARN的结合不完善，这就为使用过程中埋下隐忧，容易出现各种难题。

大家正在搜

中国免费正规spark网站大数据框架hadoop和spark spark框架属于hadoop吗简述spark架构及工作原理 hadoop工作好找吗 spark和hadoop的区别和关联 hadoop和spark哪个简单 Spark与Hadoop是一回事吗 hadoop spark hive