hadoop和spark的都是并行计算，有什么相同和区别？

如题所述

推荐答案 2020-11-09

相同点都是基于MR的原理来实现的。
不同点前者基于磁盘+内存，磁盘占得比重比较大，而后者侧重于内存+磁盘，内存占得比重比较大，这也是为什么Hadoop没spark速度快的根本原因，spark基于内存来做MR，而Hadoop侧重于落地到磁盘来做MR。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/vWveeOtetWtzOeBtjtX.html

其他回答

第1个回答 2020-11-11

两者都是用mr模型来进行并行计算，hadoop的一个作业称为job，job里面分为map task和reduce task，每个task都是在自己的进程中运行的，当task结束时，进程也会结束。
spark用户提交的任务成为application，一个application对应一个sparkcontext，app中存在多个job，每触发一次action操作就会产生一个job。
这些job可以并行或串行执行，每个job中有多个stage，stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的，每个stage里面有多个task，组成taskset有TaskSchaduler分发到各个executor中执行，executor的生命周期是和app一样的，即使没有job运行也是存在的，所以task可以快速启动读取内存进行计算。
hadoop的job只有map和reduce操作，表达能力比较欠缺而且在mr过程中会重复的读写hdfs，造成大量的io操作，多个job需要自己管理关系。
spark的迭代计算都是在内存中进行的，API中提供了大量的RDD操作如join，groupby等，而且通过DAG图可以实现良好的容错。本回答被提问者采纳

相似回答

2分钟读懂大数据框架Hadoop和Spark的异同答：Hadoop和Spark都是集群并行计算框架，都可以做分布式计算，它们都基于MapReduce并行模型。Hadoop基于磁盘计算，只有map和reduce两种算子，它在计算过程中会有大量中间结果文件落地磁盘，这会显著降低运行效率。而Spark基于内存计算（一个task会在一个分片上以流水线的形式执行，中间不会再分配内存，避免内存被快...

Spark VS Hadoop有哪些异同点答：首先，Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。同时，Hadoop还会索引和跟踪这些数据，让大数据处理和分析效率达到...

2分钟读懂大数据框架Hadoop和Spark的异同答：虽 Spark 与 Hadoop 相似处提供具用差异新集群计算框架首先Spark 集群计算特定类型工作负载设计即些并行操作间重用工作数据集（比机器习算）工作负载优化些类型工作负载Spark 引进内存集群计算概念内存集群计算数据集缓存内存缩短访问延迟.数据处理面相信家hadoop已经耳熟能详基于GoogleMap/Reduce实现Hadoop发者提...

Hadoop与分布式数据处理 Spark VS Hadoop有哪些异同点答：虽然 Spark 与 Hadoop 有相似之处，但它提供了具有有用差异的一个新的集群计算框架。首先，Spark 是为集群计算中的特定类型的工作负载而设计，即那些在并行操作之间重用工作数据集（比如机器学习算法）的工作负载。为了优化这些类型的工作负载，Spark 引进了内存集群计算的概念，可在内存集群计算中将数据...

spark和hadoop的区别答：平台不同spark和hadoop区别是，spark是一个运算平台，而hadoop是一个复合平台（包含运算引擎，还包含分布式文件存储系统，还包含分布式运算的资源调度系统），所以，spark跟hadoop来比较的话，主要是比运算这一块大数据技术发展到目前这个阶段，hadoop主要是它的运算部分日渐式微，而spark目前如日中天，相关技术...

spark和hadoop的区别答：spark和hadoop的区别 据我了解Spark和Hadoop都是大数据处理框架,但它们在处理方式和使用场景上有所不同。 Spark是一个内存计算引擎。Spark支持多种编程语言。它适用于实时数据处理和迭代计算任务。 Hadoop是一个分布式计算框架,主要用于处理海量数据。Hadoop适用于离线数据处理、批处理和数据仓库等场景。总之,Spark更注重...

spark和hadoop的区别答：1、诞生的先后顺序：hadoop属于第一代开源大数据处理平台，而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。2、计算不同：spark和hadoop在分布式计算的具体实现上，又有区别；hadoop中的mapreduce运算框架，一个运算job，进行一次map-reduce的过程；而spark的一个job中，可以将...

spark和hadoop的区别答：spark和hadoop的区别就是原理以及数据的存储和处理等。Hadoop一个作业称为一个Job，Job里面分为Map Task和Reduce Task阶段，每个Task都在自己的进程中运行，当Task结束时，进程也会随之结束。Spark用户提交的任务称为application，一个application对应一个SparkContext，app中存在多个job，每触发一次action操作...

Hadoop和spark之间有什么不同点呀?答：spark和hadoop在分布式计算的具体实现上，又有区别;hadoop中的mapreduce运算框架，一个运算job，进行一次map-reduce的过程;而spark的一个job中，可以将多个map-reduce过程级联进行 spark和hadoop的另一个区别是，spark是一个运算平台，而hadoop是一个复合平台(包含运算引擎，还包含分布式文件存储系统，还包含...

大家正在搜