解析:
答:Spark中的数据本地性有三种:
a.PROCESS_LOCAL是指读取缓存在本地节点的数据
b.NODE_LOCAL是指读取本地节点硬盘数据
c.ANY是指读取⾮本地节点数据
通常读取数据PROCESS_LOCAL>NODE_LOCAL>ANY,尽量使数据以PROCESS_LOCAL或NODE_LOCAL⽅式读取。其中PROCESS_LOCAL还和cache有
关,如果RDD经常⽤的话将该RDD cache到内存中,注意,由于cache是lazy的,所以必须通过⼀个action的触发,才能真正的将该RDD cache到内存中。
解析:
1)transformation,rdd由⼀种转为另⼀种rdd
2)action,
3)cronroller,crontroller是控制算⼦,cache,persist,对性能和效率的有很好的⽀持
三种类型,不要回答只有2中操作
解析:
1)transformation,rdd由⼀种转为另⼀种rdd
2)action,
3)cronroller,crontroller是控制算⼦,cache,persist,对性能和效率的有很好的⽀持
三种类型,不要回答只有2中操作
解析:
答:driver通过collect把集群中各个节点的内容收集过来汇总成结果,collect返回结果是Array类型的,collect把各个节点上的数据抓过来,抓过来数据是Array
型,collect对Array抓过来的结果进⾏合并,合并后Array中只有⼀个元素,是tuple类型(KV类型的)的。