如何选择合适的大数据提取工具？

作者: 易米烊光
发布时间: 2024-07-28 11:30:52 (12小时前)
转自：

2 条回复

0#
回复此人
圈圈红 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 我认为摄取工具的选择可能取决于以下因素： </p> <OL> <LI> 数据源 </LI> <LI> 目标 </LI> <LI> 转换（在摄取阶段，如果有的话，简单或复杂）等等 </LI> </醇> <P> 您共享的链接中提到的某些工具也应具有重叠功能。 </p> <P> 我一直在努力创建数据管道，我们选择Flume作为我们的要求，因为在我们的情况下，源是以压缩格式（Chunked Transfer Encoding）发出数据，我找不到任何带有连接器的工具。因此，我最终为此目的定制了Flume（即编写自定义源）。 </p> <P> 此外，我的情况下的转换是一个简单的过滤，因此Flume的可选拦截器组件在此处起作用。 </p> <P> 最后，我不得不将数据发送到Kafka集群，因此Flume中的Kafka Sink / Kafka Channel组件满足了这一要求。 </p> <P> 作为一个简单的Java进程，它帮助我们在基础架构方面保持简单，即只部署一个虚拟机就足够了。 </p> <P> 你可能会碰到 <a href="http://rcgglobalservices.com/blog/the-best-data-ingestion-tools-for-migrating-to-a-hadoop-data-lake/" rel="nofollow noreferrer"> 这个链接 </A> 在你的搜索中，我还是想分享它。它讨论了一些你可能会觉得有用的设计模式（我们最终使用了Flume / Kafka aka Flafka模式）。 </p> <P> 可能值得深入了解您的要求。 </p> <P> 我希望这有帮助。 </p> </DIV>

编辑

登录后才能参与评论