解析:
1)不⽀持细粒度的写和更新操作(如⽹络爬⾍),spark写数据是粗粒度的
所谓粗粒度,就是批量写⼊数据,为了提⾼效率。但是读数据是细粒度的也就是
说可以⼀条条的读
2)不⽀持增量迭代计算,Flink⽀持
解析:
答:Transformation(转化)算⼦和Action(执⾏)算⼦。
Spark有哪些聚合类的算⼦,我们应该尽量避免什么类型的算⼦?
解析:
答:在我们的开发过程中,能避免则尽可能避免使⽤reduceByKey、join、distinct、repartition等会进⾏shuffle的算⼦,尽量使⽤map类的⾮shuffle算⼦。这样的
话,没有shuffle操作或者仅有较少shuffle操作的Spark作业,可以⼤⼤减少性能开销。
解析:
答:从下⾯三点去展开
1)shuffle过程的划分
2)shuffle的中间结果如何存储
3)shuffle的数据如何拉取过来
可以参考这篇博⽂:http://www.cnblogs.com/jxhd1/p/6528540.html