Insert title here

专项练习

结束做题

 hbase预分区个数和spark过程中的reduce个数相同么

解析:

 答：和spark的map个数相同，reduce个数如果没有设置和reduce前的map数相同。

 如何理解Standalone模式下，Spark资源分配是粗粒度的？

解析:

 答：spark默认情况下资源分配是粗粒度的，也就是说程序在提交时就分配好资源，后⾯执⾏的时候
 
使⽤分配好的资源，除⾮资源出现了故障才会重新分配。⽐如Spark shell启动，已提交，⼀注册，哪怕没有任务，worker都会分配资源给executor。

 Spark如何⾃定义partitioner分区器？

解析:

 答：1）spark默认实现了HashPartitioner和RangePartitioner两种分区策略，我们也可以⾃⼰扩展分区策略，⾃定义分区器的时候继承org.apache.spark.Partitioner类，实现类中的三个⽅法
 
def numPartitions: Int：这个⽅法需要返回你想要创建分区的个数；
 
def getPartition(key: Any): Int：这个函数需要对输⼊的key做计算，然后返回该key的分区ID，范围⼀定是0到numPartitions-1；
 
www.aboutyun.com/thread-24246-1-1.html 19/57
2019/4/24 spark相关的⾯试题跟答案，带着问题学习效果更佳哟。?）-⾯试区-about云开发
equals()：这个是Java标准的判断相等的函数，之所以要求⽤⼾实现这个函数是因为Spark内部会⽐较两个RDD的分区是否⼀样。
 
2）使⽤，调⽤parttionBy⽅法中传⼊⾃定义分区对象
 
参考：http://blog.csdn.net/high2011/article/details/68491115

 spark中task有⼏种类型？

解析:

 答：2种类型：1）result task类型，最后⼀个task，2是shuffleMapTask类型，除了最后⼀个task都是

 union操作是产⽣宽依赖还是窄依赖？

解析:

 答：窄依赖