解析:
并不是想知道确切的数据量有多⼤这个,⽽是想问你,MR的执⾏机制,开发完程序,有没有认真评估程序运⾏效率
1)⽤于处理redcue任务的资源情况,如果是MRV1的话,分了多少资源给map,多少个reduce
如果是MRV2的话,可以提⼀下,集群有分了多少内存、CPU给yarn做计算 。
2)结合实际应⽤场景回答,输⼊数据有多⼤,⼤约多少条记录,做了哪些逻辑操作,输出的时候有多少条记录,执⾏了多久,reduce执⾏时候的数据有没有倾斜等
3)再提⼀下,针对mapReduce做了哪⼏点优化,速度提升了多久,列举1,2个优化点就可以
解析:
答:1)回答出数据是什么格式,有没有采⽤什么压缩,采⽤了压缩的话,压缩⽐⼤概是多少;2)⽂件⼤概多⼤:⼤概起了多少个map,起了多少个reduce,map阶段读取了多少数据,
reduce阶段读取了多少数据,程序⼤约执⾏了多久,3)集群什么规模,集群有多少节点,多少内存,多少CPU核数等。把这些点回答进去,⽽不是给个数字了事。
你们提交的job任务⼤概有多少个?这些job执⾏完⼤概⽤多少时间?
解析:
还是考察你开发完程序有没有认真观察过程序的运⾏,有没有评估程序运⾏的效率
解析:
这个也是看你们有没有实际的经验,对于没有实战的同学,请把回答的侧重点放在MR的运⾏机制上⾯,
MR运⾏效率⽅⾯,以及如何优化MR程序(看别⼈的优化demo,然后在虚拟机上拿demo做⼀下测试)。
解析:
杀死⼀个job
MRV1:Hadoop job kill jobid
www.aboutyun.com/thread-24246-1-1.html 26/57
2019/4/24 spark相关的⾯试题跟答案,带着问题学习效果更佳哟。?)-⾯试区-about云开发
YARN: yarn application -kill applicationId