我认为摄取工具的选择可能取决于以下因素:
您共享的链接中提到的某些工具也应具有重叠功能。
我一直在努力创建数据管道,我们选择Flume作为我们的要求,因为在我们的情况下,源是以压缩格式(Chunked Transfer Encoding)发出数据,我找不到任何带有连接器的工具。因此,我最终为此目的定制了Flume(即编写自定义源)。
此外,我的情况下的转换是一个简单的过滤,因此Flume的可选拦截器组件在此处起作用。
最后,我不得不将数据发送到Kafka集群,因此Flume中的Kafka Sink / Kafka Channel组件满足了这一要求。
作为一个简单的Java进程,它帮助我们在基础架构方面保持简单,即只部署一个虚拟机就足够了。
你可能会碰到 这个链接 在你的搜索中,我还是想分享它。它讨论了一些你可能会觉得有用的设计模式(我们最终使用了Flume / Kafka aka Flafka模式)。
可能值得深入了解您的要求。
我希望这有帮助。