当你需要失败,良好的平衡等等时,很难编写自己的“分布式环境”解决方案。如果你需要近乎实时的地图/减少你应该结账 风暴 这是twitter用于满足其巨大数据需求的方式。它比hadoop更简单,更好地消耗队列类型输入(在我看来)。
此外,如果您决定分析您在hadoop上的数据,请不要过多担心名称节点的SPOF,有 从某种角度 避免它。