我认为任何人都不能说“是的,框架X可以肯定地处理您的工作量”,因为它很大程度上取决于您在消息处理中需要什么,例如关于消息传递可靠性,以及如何对数据流进行分区。
你可能感兴趣 BenchmarkingDistributedStreamProcessingEngines 。本文使用的是几年前的Storm / Flink / Spark版本(看起来它们是在2016年发布的),但也许作者愿意让你使用他们的基准来评估这三个框架的新版本?
流分析的一个非常常见的设置是转到数据源 - > Kafka / Pulsar - >分析框架 - >长期数据存储。这将处理与数据摄取分离,并允许您执行诸如重新处理历史数据之类的内容,就像它是新的一样。
我认为您的第一步应该是看看您是否可以通过Kafka / Pulsar获得所需的数据量。可以手动生成测试集,也可以从生产环境中获取您认为可能具有代表性的一些数据,并查看是否可以通过Kafka / Pulsar以您需要的吞吐量/延迟量。
请记住考虑对数据进行分区。如果您的某些数据流可以独立处理(即排序无关紧要),则不应将它们放在相同的分区中。例如,可能没有理由混合传感器测量和视频馈送流。如果您可以将数据分成独立的流,则不太可能在Kafka / Pulsar和分析框架中遇到瓶颈。单独的数据流还允许您更好地并行化分析框架中的处理,因为您可以运行,例如不同机器上的视频输入和传感器处理。
一旦你知道是否可以通过Kafka / Pulsar获得足够的吞吐量,你应该为3个框架中的每一个编写一个小例子。首先,我会接收并删除Kafka / Pulsar的数据,这应该让您及早知道Kafka / Pulsar是否存在瓶颈 - >分析路径。之后,您可以扩展示例以使用示例数据执行一些有趣的操作,例如:像生产中你想做的那样进行一些处理。
您还需要考虑数据流所需的哪种处理保证。通常,您将为保证至少一次或完全一次处理而支付性能损失。对于某些类型的数据(例如视频输入),偶尔丢失消息可能是可以的。确定所需的保证后,您可以适当地配置分析框架(例如,在Storm中禁用acking),并尝试对测试数据进行基准测试。
只是更明确地回答一些问题:
实时数据分析/监控用例听起来很适合Storm / Flink系统。直接将它连接到Kafka / Pulsar,然后做你需要的任何分析听起来它可能适合你。
历史数据的重新处理将取决于您需要执行何种查询。如果您只需要一个时间间隔+ id,您可以使用Kafka加上过滤器或适当的分区来实现。 Kafka允许您在特定时间戳开始处理,如果数据按ID分区,或者您将其作为分析的第一步过滤,则可以从提供的时间戳开始,并在时间窗口之外点击消息时停止处理。这仅适用于您感兴趣的时间戳是将消息添加到Kafka的情况。我也不相信Kafka在它生成的时间戳上支持低于毫秒的分辨率。
如果您需要进行更高级的查询(例如,您需要查看传感器生成的时间戳),您可以查看使用 卡桑德拉 要么 Elasticsearch 要么 Solr的 作为您的永久数据存储。您还需要研究如何将这些系统中的数据恢复到分析系统中。例如,我相信Spark附带了一个用于从Elasticsearch读取的连接器,而Elasticsearch为Storm提供了一个连接器。您应该检查数据存储/分析系统组合是否存在此类连接器,或者是否愿意编写自己的连接器。
编辑:阐述回答你的评论。
我不知道Kafka或Pulsar支持用户指定的时间戳,但果然,他们 都 做 。我不认为Pulsar支持亚毫秒时间戳吗?
你描述的想法绝对可以得到Kafka的支持。
您需要的是能够在特定时间戳启动Kafka / Pulsar客户端,并向前阅读。 Pulsar似乎还不支持这一点,但Kafka确实如此。
您需要保证在将数据写入分区时,它们按时间戳的顺序到达。这意味着您不允许用时间戳10写第一个消息1,然后用时间戳5写消息2。
如果您可以确保为Kafka编写消息,那么您描述的示例将起作用。然后你可以说“昨晚午夜开始时间戳”,而卡夫卡将从那里开始。当实时数据进入时,它将接收它并将其添加到其日志的末尾。当消费者/分析框架已经读取了从午夜到当前时间的所有数据时,它将开始等待新的(实时)数据到达,并在其进入时对其进行处理。然后,您可以在分析框架中编写自定义代码当它到达带有时间戳'明天晚上'的第一条消息时,确保它停止处理。
关于亚毫秒时间戳的支持,我不认为Kafka或Pulsar会开箱即用,但你可以很容易地解决它。只需将消息中的亚毫秒时间戳作为自定义字段。如果你想从时间戳9ms 10ns,你要求Kafka从9ms开始,并使用分析框架中的过滤器将所有消息丢弃在9ms到9ms 10ns之间。