具有多个reduce任务会将单个HDFS文件组合为输出

作者: نسر الصحراء
发布时间: 2024-09-07 10:14:06 (1月前)
转自：

3 条回复

0#
回复此人
那月静好 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 答案是否定的，对于一个罕见的用例来说，这将是一个不必要的复杂问题。 </p> <P> 你应该做什么 </p> <P> 的<strong> 选项1 </强> - 在hadoop命令的末尾添加一些代码 </p> <pre> <code> int result = job.waitForCompletion(true) ? 0 : 1; if (result == 0) { // status code OK // ls job output directory, collect part-r-XXXXX file names // create HDFS readers for files // merge them in a single file in whatever way you want } </code> </pre> <P> 所有必需的方法都存在于hadoop FileSystem api中。 </p> <P> 的<strong> 选项2 </强> - 添加作业以合并文件 </p> <P> 您可以创建一个通用的hadoop作业，它接受目录名作为输入，并按原样将所有内容传递给单个reducer，这会将结果合并到一个输出文件中。在主要工作的管道中调用此工作。 </p> <P> 对于大输入，这将更快地工作。 </p> </DIV>

编辑
1#
回复此人
夏花 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 如果要在本地合并输出文件，可以使用hadoop命令getmerge将多个reduce任务文件合并到一个本地输出文件中，下面是命令相同。 </p> <pre> <code> hadoop fs -getmerge /output/dir/on/hdfs/ /desired/local/output/file.txt </code> </pre> </DIV>

编辑

登录后才能参与评论