ApachePig简介与实践


立即下载 ⑩Ⅵ嵗D夨憶
2024-04-12
Pig 模式 本地 pig 引擎 Tez 计算 执行 usr local 数据
186.5 KB

Apache Pig简介与实践
Apache Pig 是一个用来分析大数据集的平台,它由两部分 组成:一部分是用于表达数据分析
程序的高 级脚本语言,另一部分是用于 评估分析程序的基本工具。目前来看, Pig 主要用于离
线数据的批量 处理应用场景,但是随着 Pig 的发展处理数据的速度会不断地提升, 这可能依 赖
于 Pig 底层的执行引擎。比如,Pig 通过指定 执行模式,可以使用 Hadoop 的 MapReduce 计
算引擎来 实现 数据处理,也可以使用基于 Tez 的计算引擎来 实现 (Tez 是为了绕开
MapReduce 多阶段 Job 写磁盘而设计的 DAG 计算引擎,性能 应该比 MapReduce 要快),
看到 Pig 未来的 发展路线图,以后可能会基于 Storm 或 Spark 计算平台 实现底层计算引擎,
那样速度会有极大地提升。
我们基于最新的 0.15.0 版本的 Pig(Hadoop 使用的是 2.2.0 版本),通过编写一些例子脚本
来实践 Pig 的语言特性。
Pig 安装与 执行
Pig 安装非常 简单 ,只需要下载 Pig 包,然后解 压缩即可:
wget http://mirror.bit.edu.cn/apache/pig/pig-
0.15.0/pig-0.15.0.tar.gz
tarxvzf pig-0.15.0.tar.gz
sudo ln -s /usr/local/pig-0.15.0 /usr/local/pig
cd /usr/local/pig
bin/pig -x mapreduce
如果希望直接使用 pig 命令,可以修改 环境变量文件 ~/.bashrc ,增加如下配置:
export PIG_HOME=/usr/local/pig
export PATH=$PATH:$PIG_HOME/bin
使变量配置生效:
. ~/.bashrc
Pig 支持如下 4 种执行模式:
本地模式
本地模式主要是基于本地文件系 统,比较适合调试 脚本使用。进入本地模式 执行如下命令:
pig -x local
Tez 本地模式
Tez 本地模式 类似于前面的本地模式,它使用 Tez 运行时引擎,进入 Tez 本地模式 执行如下
命令:


Pig/模式/本地/pig/引擎/Tez/计算/执行/usr/local/数据/ Pig/模式/本地/pig/引擎/Tez/计算/执行/usr/local/数据/
-1 条回复
登录 后才能参与评论
-->