PROSAGA码农传奇-HDFS-我们可以使用Hadoop MapReduce进行实时数据处理吗？

0# 誓言 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”>
  
    Hadoop / Spark在处理大量数据和批量处理的情况下闪耀，但当您的用例围绕实时分析需求时，那么
    
       卡夫卡蒸汽
    
     和
    
       德鲁伊
    
     是值得考虑的好选择。
  
  
    这是了解类似用例的良好参考链接：

<a href="https://www.youtube.com/watch?v=3NEQV5mjKfY" rel="nofollow noreferrer">
      https://www.youtube.com/watch?v=3NEQV5mjKfY
    </A>
  
  
    Hortonworks还提供HDF Stack（
    <a href="https://hortonworks.com/products/data-platforms/hdf/" rel="nofollow noreferrer">
      https://hortonworks.com/products/data-platforms/hdf/
    </A>
    ）最适合与运动数据相关的用例。
  
  
    卡夫卡和德鲁伊文档是了解两种技术强度的好地方。以下是他们的文档链接：
  
  
    卡夫卡：
    <a href="https://kafka.apache.org/documentation/streams/" rel="nofollow noreferrer">
      https://kafka.apache.org/documentation/streams/
    </A>
     
    
德鲁伊：
    <a href="http://druid.io/docs/latest/design/index.html#when-to-use-druid" rel="nofollow noreferrer">
      http://druid.io/docs/latest/design/index.html#when-to-use-druid
    </A>
  
</DIV>

1# 仙风道骨刘憨憨 | 2019-08-31 10-32

2# 無口君 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”>
  
    的
      具有Map-Reduce的实时应用程序
    </强>
    
让我们尝试使用Hadoop实现实时应用程序。为了理解这种情况，我们考虑一下温度传感器。假设传感器继续工作，我们将继续获得新的读数。所以数据永远不会停止。
  
  
    我们不应该等待数据完成，因为它永远不会发生。那么也许我们应该继续定期进行分析（例如每小时）。我们可以每小时运行Spark并获取最后一小时的数据。
  
  
    如果每小时，我们需要过去24小时的分析怎么办？我们应该每小时重新处理过去24小时的数据吗？也许我们可以计算每小时数据，存储它，并使用它们来计算24小时数据。它会工作，但我必须编写代码来完成它。
  
  
    我们的问题刚刚开始。让我们迭代一些使我们的问题复杂化的要求。
  
  <UL>
    <LI>
      如果温度传感器放置在核电站内并且如何
我们的代码创建警报。一小时后创建警报
可能不是处理它的最佳方式。我们可以在1内收到警报吗？
第二？
    </LI>
    <LI>
      如果您希望在小时边界处计算读数，该怎么办？
数据到达存储空间需要几秒钟。现在你不能
在你的边界开始工作，你需要观察磁盘和
当数据到达小时边界时触发作业。
    </LI>
    <LI>
      好吧，你可以快速运行Hadoop。工作会在1秒内完成吗？
我们可以将数据写入磁盘，读取数据，处理数据，以及
产生结果，并与其他23个小时的数据重新组合
第二？现在事情开始变得紧张。
    </LI>
    <LI>
      你开始感受摩擦的原因是因为你没有
使用正确的工具为工作。您正在使用平头螺丝刀
当你有一个内六角扳手螺丝。
    </LI>
  </UL>
  
    的
      流处理
    </强>
    
解决此类问题的正确工具称为“流处理”。这里“流”指的是数据流。将继续出现的数据序列。 “流处理”可以在数据进入时对其进行监视，处理它们，并在几毫秒内响应它们。
  
  
    以下是我们想要超越批处理（Hadoop / Spark），我们的舒适区域以及考虑流处理的原因。
  
  <UL>
    <LI>
      一些数据自然而然地成为永无止境的事件流。去做
批处理，你需要存储它，在某些时候切断
处理数据。然后你必须做下一批然后担心
关于聚合多个批次。相比之下，流媒体
优雅而自然地处理无休止的数据流。您可以
有条件，看多个重点（将讨论这个
当我们到达Windows时，也可以轻松查看多个数据
同时流。
    </LI>
    <LI>
      通过流式传输，您可以更快地响应事件。你可以生产
接收事件（更新）的毫秒数内的结果。同
这通常需要几分钟。
    </LI>
    <LI>
      流处理自然适合时间序列数据和检测
随着时间的推移例如，如果您正在尝试检测
永无止境的流中的Web会话的长度（这是一个例子
试图检测一个序列），很难做到这一点
批量，因为一些会议将分为两批。流处理
可以轻松处理。如果你退后一步考虑，那就是
大多数连续数据系列是时间序列数据。例如，差不多
所有物联网数据都是时间序列数据。因此，使用a是有意义的
自然适合的编程模型。
    </LI>
    <LI>
      Batch允许数据建立并尝试同时处理它们
流处理数据，因为它们传播处理
随着时间的推移。因此，流处理可以使用更少的硬件
比批处理。
    </LI>
    <LI>
      有时数据很大，甚至无法存储它。
流处理让您处理大型火马风格的数据和
只保留有用的位。
    </LI>
    <LI>
      最后，有很多可用的流数据（例如客户
交易，活动，网站访问），他们将增长得更快
使用物联网用例（所有类型的传感器）。流媒体是一个更多
自然模型来思考和编程这些用例。
    </LI>
  </UL>
</DIV>