木地板编写者不关心HDFS块大小,因为您可以节省镶木地板,例如在本地硬盘上。决定单个部分的数量和大小的因素 - * .woodplas文件是数据框中的分区数(在您的情况下为64)。如果你愿意的话 df.coalesce(1).write.parquet(...) ,你将只有一个大部分文件。
df.coalesce(1).write.parquet(...)
如果您希望零件文件各约为128 Mb,则coalesce参数应为20 * 64/128 = 10.虽然给定数量的合并分区依赖关系的零件文件大小不是严格线性的。部件文件的数量越少,编码/压缩效率越高。
看到 合并 详细方法说明