Spark on Yarn架构是怎么样的?(要会画哦,这个图)
解析:
Yarn提到的App Master可以理解为Spark中Standalone模式中的driver。Container中运⾏着Executor,在Executor中以多线程并⾏的⽅式运⾏Task。运⾏过程和第⼆题相似。
解析:
1)num-executors是executor的数量
2)executor-memory 是每个executor使⽤的内存
3)executor-cores 是每个executor分配的CPU
为什么会产⽣yarn,解决了什么问题,有什么优势?
解析:
1)为什么产⽣yarn,针对MRV1的各种缺陷提出来的资源管理框架
2)解决了什么问题,有什么优势,参考这篇博⽂:http://www.aboutyun.com/forum.php?mod=viewthread&tid=6785
www.aboutyun.com/thread-24246-1-1.html 25/57
2019/4/24 spark相关的⾯试题跟答案,带着问题学习效果更佳哟。?)-⾯试区-about云开发
解析:
阶段1:input/map/partition/sort/spill
阶段2:mapper端merge
阶段3:reducer端merge/reduce/output
详细过程参考这个http://www.cnblogs.com/hipercomer/p/4516581.html
解析:
⼀般情况下,在输⼊源是⽂件的时候,⼀个task的map数量由splitSize来决定的,那么splitSize是由以下⼏个来决定的
goalSize = totalSize / mapred.map.tasks
inSize = max {mapred.min.split.size, minSplitSize}
splitSize = max (minSize, min(goalSize, dfs.block.size))
⼀个task的reduce数量,由partition决定。