大数据技术之Flume


立即下载 不见你
2025-02-02
——— 数据 Flume Channel 实时 Source 收集 用来 传输 文件
63 KB

—————————————————————————————
大数据技术之标题
一、 Flume简介
1) Flume 提供一个分布式的, 可靠的,对大数据量的日志进行高效收集、 聚集、移动的服务,
Flume 只能在 Unix 环境下运行。
2) Flume 基于流式架构,容错性强,也很灵活简单。
3) Flume、Kafka 用来实时进行数据收集, Spark、Storm 用来实时处理数据, impala 用来实
时查询。
二、 Flume角色
2.1、Source
用于采集数据, Source是产生数据流的地方, 同时 Source会将产生的数据流传输到 Channel,
这个有点类似于 Java IO部分的 Channel。
2.2、Channel
用于桥接 Sources和 Sinks,类似于一个队列。
2.3、Sink
从 Channel收集数据,将数据写到目标源 (可以是下一个 Source,也可以是 HDFS 或者 HBase)。
2.4、Event
传输单元, Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。
三、Flume 传输过程
source 监控某个文件或数据流,数据源产生新的数据,拿到该数据后,将数据封装在一个
Event 中,并 put 到 channel后 commit 提交, channel队列先进先出, sink 去 channel队列中
拉取数据,然后写入到 hdfs 或者 HBase中。
—————————————————————————————
四、 Flume部署及使用
4.1、文件配置
flume-env.sh涉及修改项:
JAVA_HOME=/home/admin/modules/jdk1.8.0_121
4.2、案例
4.2.1、案例一
目标: Flume 监控一端 Console,另一端 Console发送消息,使被监控端实时显示。
分步实现:
1) 创建 Flume Agent 配置文件 flume-telnet.conf
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe


———/数据/Flume/Channel/实时/Source/收集/用来/传输/文件/ ———/数据/Flume/Channel/实时/Source/收集/用来/传输/文件/
-1 条回复
登录 后才能参与评论
-->