PROSAGA码农传奇-flume-编写Flume配置，将不断增长的文件上传到HDFS

编写Flume配置，将不断增长的文件上传到HDFS

作者: Let us fly
发布时间: 2024-04-18 08:27:08 (2月前)
转自：

<div class =“post-text”itemprop =“text”>
  <BLOCKQUOTE>
    
      如果可能 - 每次源文件（/usr/AUX/output.txt）更改时，必须更新HDFS中的目标文件
    
  </BLOCKQUOTE>
  
    好吧，问题是HDFS文件并不是要“更新”，因为HDFS是优化的FileSystem for appends。因此，推荐的模式是创建一个新文件。几乎所有的Hadoop处理引擎都可以读取整个目录，所以这应该不是问题。
  
  
    就Flume而言，您应该使用假脱机目录源，而不是Exec Source
     <code>
 cat
 </code>
     要么
     <code>
 tail -f
 </code>
    。否则，Flume代理程序不是为了“新文件”而设计为读取“文件更新”
    的
      看到
    </强>
    “文件。然后它标记为完整，稍后移动/忽略它们。
  
  
    因此，你会想要这样的东西，它产生一个
    
      时间戳
    
     每次进程运行时都会生成文件。这足以让Flume说文件是新的，应该被读/处理。
  
   <pre>
 <code>
 some_process >> /flume_watcher/output_$(date +%s%3N).txt

</code>
 </pre>
  
    看到
    <a href="https://flume.apache.org/FlumeUserGuide.html#spooling-directory-source" rel="nofollow noreferrer">
      假脱机目录
    </A>
    ，和
    <a href="https://flume.apache.org/FlumeUserGuide.html#exec-source" rel="nofollow noreferrer">
      为什么Exec Source不鼓励
    </A>
     （红色框）。
  
  <HR />
  
    附加通知：
    <a href="https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.5/bk_release-notes/content/deprecated_items.html" rel="nofollow noreferrer">
      HDP已弃用Flume
    </A>
    ，并建议使用Hortonworks DataFlow（Apache Nifi）。即在HDP 3.0 Sandbox（如果有的话）中，你不会有Flume。因此，不要浪费太多时间在上面。
  
</DIV>