Storm与Hadoop相比如何?Hadoop似乎是开源大规模批处理的实际标准,Storm是否比hadoop有任何优势?还是它们完全不同?
你为什么不说出你的意见。
http://www.infoq.com/news/2011/09/twitter-storm-real-time-hadoop/http://engineering.twitter.com/2011/08/storm-is-coming-more-details-and-plans.htmlTwitter Storm被吹捧为实时Hadoop。这更多是为了轻松消费而进行的营销。
它们在表面上都是相似的,因为它们都是分布式应用程序解决方案。除了典型的分布式架构元素(如主/从属)之外,基于动物园管理员的协调,对我而言,比较还算是悬崖。
Twitter更像一条处理数据的管道。管道是连接各种接收数据,计算和传递输出的计算节点的工具。(有术语是喷口和螺栓)将此类推扩展到复杂的管道布线,可以在需要时进行重新设计,从而获得Twitter Storm。
在坚果壳中,它可以处理数据。没有延迟。
Hadoop在这方面的差异主要归因于HDFS。它是一种解决方案,适用于分布式存储并容忍多种规模的故障(磁盘,机器,机架等)
M / R旨在利用HDFS上的数据本地化来分配计算作业。它们在一起不能为实时数据处理提供便利。但是,当您查看大数据时,这并不总是必需的。(大海捞针类推)
简而言之,Twitter Storm是一种分布式实时数据处理解决方案。我不认为我们应该比较它们。Twitter之所以建立它,是因为它需要一种功能来处理小推文,但数量庞大且实时。
请参阅:HStreaming是否被迫将其与某些东西进行比较