代码空间

摘要(Abstract)

Druid 德鲁伊 分布式实时分析的数据存储系统(Data Store)MetaMarkets 于2011 年创建,2012 年开源。 分析而生,在处理数据的规模、数据处理的实时性,拥抱主流开源生态,包括Hadoop 等。非常活跃。 http://druid.io。 将数据源进行流式处理,对接分析数据库,例如Druid、Vertica 等。 原则 (1)快速查询(Fast Query):部分数据的聚合(Partial Aggregate)+内存化(In-emory)+索引(Index)。 (2)水平扩展能力(Horizontal Scalability):分布式数据(Distributed Data)+ 并行化查询(Parallelizable Query)。 (3)实时分析(Realtime Analytics):不可变的过去,只追加的未来(Immutable Past,Append-Only Future)。 特点 • 数据吞吐量大。 • 支持流式数据摄入和实时。 • 查询灵活且快。 • 社区支持力度大。 场景 Druid 是一个分布式的数据分析平台,像传统的OLAP系统,支持更大的数据量、更灵活的分布式部署、更实时的数据摄入,Druid 舍去了OLAP 中复杂的操作,如JOIN 等。相Druid 是一种时序数据库,按照一定的时间粒度对数据进行聚合,以加快分析查询。 在应用场景上,广告数据分析各个行业和很多互联网公司中,http://druid.io/druidpowered.html。 《Druid实时大数据分析原理与实践》