中的地图集数量
distcp
等于负载很重的节点数。
所以我增加了地图制作者的数量
distcp
使用
-m
集群中存在的机器数量的选项,输出偏差小得多。
一个额外的好处:
distcp
工作比以前更快完成工作。
我在HDFS中有一个文件夹(大小约2 TB),它是使用Apache Spark的save方法创建的。它几乎均匀地分布在节点上(我使用hdfs fsck检查了这一点)。
当我试着……