代码空间


摘要(Abstract)

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分。 日志收集编辑 Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。 数据处理编辑 Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 。Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统),支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力。 1. Flume数据存储广泛,比如HDFS,HBase 2. 调峰能力Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供平稳的数据. 3. 提供上下文路由特征 4. 管道是基于事务,保证了数据在传送和接收时的一致性. 5. 可靠的,容错性高的,可升级的,易管理的,并且可定制的。 特征 1. Flume可以高效率的将多个网站服务器中收集的日志信息存入HDFS/HBase中 2. 使用Flume,我们可以将从多个服务器中获取的数据迅速的移交给Hadoop中 3. 除了日志信息,Flume同时也可以用来接入收集规模宏大的社交网络节点事件数据,比如facebook,twitter,电商网站如亚马逊,flipkart等 4. 支持各种接入资源数据的类型以及接出数据类型 5. 支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等 6. 可以被水平扩展


主题(Topic)

项目(Project)