distcp导致HDFS偏斜


Just do it
2025-03-13 02:34:56 (10天前)


我在HDFS中有一个文件夹(大小约2 TB),它是使用Apache Spark的save方法创建的。它几乎均匀地分布在节点上(我使用hdfs fsck检查了这一点)。

当我试着……

2 条回复
  1. 0# Gassyc加西可 | 2019-08-31 10-32



    中的地图集数量

    distcp

    等于负载很重的节点数。



    所以我增加了地图制作者的数量

    distcp

    使用

    -m

    集群中存在的机器数量的选项,输出偏差小得多。



    一个额外的好处:

    distcp

    工作比以前更快完成工作。


登录 后才能参与评论