spark如何实现并发

如题所述

举报该问题

推荐答案 2018-08-23

è¾å¥å¯è½ä»¥å¤ä¸ªæä»¶çå½¢å¼åå¨å¨ HDFS ä¸ï¼æ¯ä¸ª File é½åå«äºå¾å¤åï¼ç§°ä¸º Blockãå½ Spark è¯»åè¿äºæä»¶ä½ä¸ºè¾å¥æ¶ï¼ä¼æ ¹æ®å·ä½æ°æ®æ ¼å¼å¯¹åºç InputFormat è¿è¡è§£æï¼ä¸è¬æ¯å°è¥å¹²ä¸ª Block åå¹¶æä¸ä¸ªè¾å¥åçï¼ç§°ä¸º InputSplitï¼æ³¨æ InputSplit ä¸è½è·¨è¶æä»¶ãéåå°ä¸ºè¿äºè¾å¥åççæå·ä½ç TaskãInputSplit ä¸ Taskæ¯ä¸ä¸å¯¹åºçå³ç³»ãéåè¿äºå·ä½ç Task æ¯ä¸ªé½ä¼è¢«åéå°éç¾¤ä¸çæä¸ªèç¹çæä¸ª Executor å»æ§è¡ã

æ¯ä¸ªèç¹å¯ä»¥èµ·ä¸ä¸ªæå¤ä¸ª Executorã

æ¯ä¸ª Executor ç±è¥å¹² core ç»æï¼æ¯ä¸ª Executor çæ¯ä¸ª core ä¸æ¬¡åªè½æ§è¡ä¸ä¸ª Task ã

æ¯ä¸ª Task æ§è¡çç»æå°±æ¯çæäºç®æ RDD çä¸ä¸ª partitonã

æ³¨æ: è¿éç core æ¯èæç core èä¸æ¯æºå¨çç©ç CPU æ ¸ï¼å¯ä»¥çè§£ä¸ºå°±æ¯ Executor çä¸ä¸ªå·¥ä½çº¿ç¨ã

è Task è¢«æ§è¡çå¹¶ååº¦ = Executor æ°ç® * æ¯ä¸ª Executor æ ¸æ°ã

è³äº partition çæ°ç®ï¼

å¯¹äºæ°æ®è¯»å¥é¶æ®µï¼ä¾å¦ sc.textFileï¼è¾å¥æä»¶è¢«ååä¸ºå¤å° InputSplit å°±ä¼éè¦å¤å°åå§ Taskã

å¨ Map é¶æ®µ partition æ°ç®ä¿æä¸åã

å¨ Reduce é¶æ®µï¼RDD çèåä¼è§¦å shuffle æä½ï¼èååç RDD ç partition æ°ç®è·å·ä½æä½æå³ï¼ä¾å¦ repartition æä½ä¼èåææå®ååºæ°ï¼è¿æä¸äºç®åæ¯å¯éç½®çã

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/jOO7Xtje7O77j7etBj.html

相似回答

spark sqlcontext支持并发吗答：同时spark sql资源计算时需要把大量数据加载到内存中，需要消耗集群大量的内存资源，再做shuffle的时候，又需要消耗大量的网络IO和磁盘IO, 如果同时多个job执行，那么每个job获得资源要么少，要么需要排队。而不能像关系型数据库那么提供高并发的服务。

JAVA中高访问量高并发的问题怎么解决?答：你指的高并发量大概有多少？几点需要注意：尽量使用缓存，包括用户缓存，信息缓存等，多花点内存来做缓存，可以大量减少与数据库的交互，提高性能。用jprofiler等工具找出性能瓶颈，减少额外的开销。优化数据库查询语句，减少直接使用hibernate等工具的直接生成语句（仅耗时较长的查询做优化）。优化数据库结构...

Spark原理 | 内存管理答：在默认情况下堆外内存并不启用，可通过配置 spark.memory.offHeap.enabled 参数启用，并由 spark.memory.offHeap.size 参数设定堆外空间的大小。除了没有 other 空间，堆外内存与堆内内存的划分方式相同，所有运行中的并发任务共享存储内存和执行内存。Spark 1.6 之后默认为统一管理（UnifiedMemoryManager...

spark 的 master 和 worker 通过什么方式进行通信的答：Akka。spark集群中是按照slaves文件中的主机名，去启动worker节点。你写了几个不同的主机名，启动spark环境时就是几个worker节点。Akka是一个由Scala编写的,能兼容Sacala和JAVA的，用于编写高可用和高伸缩性的Actor模型框架，它基于了事件驱动的并发处理模式，性能非常的高,并且有很高的可用性，大大的简化...

Spark 数据倾斜及其解决方案答：dataFrame 和 sparkSql 可以设置 spark.sql.shuffle.partitions=[num_tasks] 参数控制 shuffle 的并发度,默认为200。 (2)适用场景大量不同的 Key 被分配到了相同的 Task 造成该 Task 数据量过大。 (3)解决方案调整并行度。一般是增大并行度,但有时如减小并行度也可达到效果。 (4)优势实现简单,只需...

spark相比mapreduce的优势答：Spark提供了更丰富的数据处理和分析功能，如实时计算、机器学习、图计算等，而MapReduce则相对较少。Spark的代码编写和调试更加方便，因为它的编程模型更加简洁和直观。总的来说，Spark比MapReduce更适合处理大规模、高并发的数据处理任务，同时也提供了更加丰富和灵活的数据处理和分析功能。

技术解析Transwarp Inceptor是怎样炼成的答：Spark通过线程级并发来提高性能,但是大量的并发可能会带来不必要的调度开销,因此不同的案例在不同并发度下会有最佳性能。TranswarpInceptor通过对RDD的一些属性进行推算来选择最佳并发控制,对很多的案例有着2x-3x的性能提升。4.TranswarpHolodesk内存计算引擎为了有效的降低SQL分析的延时,减少磁盘IO对系统性能的影响,星环...

反映java并行机制的特点答：5. 强大的类库支持：Java提供了一系列的并发类库，如Collections、ConcurrentHashMap、BlockingQueue等，为开发者提供了丰富的并发编程工具。6. 支持异步编程：Java 8引入了CompletableFuture类，支持异步编程，使得开发者能够更方便地处理异步任务。7. 支持分布式计算：Java提供了分布式计算框架如Hadoop、Spark等...

spark和hadoop哪个好答：RDD是Spark最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中，每次对RDD数据集的操作之后的结果，都可以存放到内存中，下一个操作可以直接从内存中输入，省去了MapReduce大量的磁盘IO操作。这对于迭代...

大家正在搜

spark如何实现并行计算 spark上实现kalman spark如何并行计算 go实现spark spark实现原理 hadoopspark原理 hadoop和spark Apache spark spark和hadoop哪个好