Insert title here

专项练习

结束做题

 Spark的数据本地性有哪⼏种？

解析:

 答：Spark中的数据本地性有三种：
 
a.PROCESS_LOCAL是指读取缓存在本地节点的数据
 
b.NODE_LOCAL是指读取本地节点硬盘数据
 
c.ANY是指读取⾮本地节点数据
 
通常读取数据PROCESS_LOCAL>NODE_LOCAL>ANY，尽量使数据以PROCESS_LOCAL或NODE_LOCAL⽅式读取。其中PROCESS_LOCAL还和cache有
关，如果RDD经常⽤的话将该RDD cache到内存中，注意，由于cache是lazy的，所以必须通过⼀个action的触发，才能真正的将该RDD cache到内存中。

 rdd有⼏种操作类型？

解析:

 1）transformation，rdd由⼀种转为另⼀种rdd
 
2）action，
 
3）cronroller，crontroller是控制算⼦,cache,persist，对性能和效率的有很好的⽀持
 
三种类型，不要回答只有2中操作

 rdd有⼏种操作类型？

解析:

 1）transformation，rdd由⼀种转为另⼀种rdd
 
2）action，
 
3）cronroller，crontroller是控制算⼦,cache,persist，对性能和效率的有很好的⽀持
 
三种类型，不要回答只有2中操作

 Spark如何处理不能被序列化的对象？

解析:

 将不能序列化的内容封装成object

 collect功能是什么，其底层是怎么实现的？

解析:

 答：driver通过collect把集群中各个节点的内容收集过来汇总成结果，collect返回结果是Array类型的，collect把各个节点上的数据抓过来，抓过来数据是Array
型，collect对Array抓过来的结果进⾏合并，合并后Array中只有⼀个元素，是tuple类型（KV类型的）的。