hbase预分区个数和spark过程中的reduce个数相同么
解析:
答:和spark的map个数相同,reduce个数如果没有设置和reduce前的map数相同。
如何理解Standalone模式下,Spark资源分配是粗粒度的?
解析:
答:spark默认情况下资源分配是粗粒度的,也就是说程序在提交时就分配好资源,后⾯执⾏的时候
使⽤分配好的资源,除⾮资源出现了故障才会重新分配。⽐如Spark shell启动,已提交,⼀注册,哪怕没有任务,worker都会分配资源给executor。
Spark如何⾃定义partitioner分区器?
解析:
答:1)spark默认实现了HashPartitioner和RangePartitioner两种分区策略,我们也可以⾃⼰扩展分区策略,⾃定义分区器的时候继承org.apache.spark.Partitioner类,实现类中的三个⽅法
def numPartitions: Int:这个⽅法需要返回你想要创建分区的个数;
def getPartition(key: Any): Int:这个函数需要对输⼊的key做计算,然后返回该key的分区ID,范围⼀定是0到numPartitions-1;
www.aboutyun.com/thread-24246-1-1.html 19/57
2019/4/24 spark相关的⾯试题跟答案,带着问题学习效果更佳哟。?)-⾯试区-about云开发
equals():这个是Java标准的判断相等的函数,之所以要求⽤⼾实现这个函数是因为Spark内部会⽐较两个RDD的分区是否⼀样。
2)使⽤,调⽤parttionBy⽅法中传⼊⾃定义分区对象
参考:http://blog.csdn.net/high2011/article/details/68491115
解析:
答:2种类型:1)result task类型,最后⼀个task,2是shuffleMapTask类型,除了最后⼀个task都是