Apache Pig 是apache平台下的一个免费开源项目,Pig为大型数据集的处理提供了更高层次的抽象,很多时候数据的处理需要多个MapReduce过程才能实现,使得数据处理过程与该模式匹配可能很困难。有了Pig就能够使用更丰富的数据结构。 [2] Pig LatinPig Latin 是一个相对简单的语言,一条语句 就是一个操作,与数据库的表类似,可以在关系数据库中找到它(其中,元组代表行,并且每个元组都由字段组成)。 Pig 拥有大量的数据类型,不仅支持包、元组和映射等高级概念,还支持简单的数据类型,如 int、long、float、double、chararray 和 bytearray。并且,还有一套完整的比较运算符,包括使用正则表达式的丰富匹配模式。 [3] 常用命令编辑 FILTER 过滤结果集,添加条件 FOREACH 对元组进行迭代输出 GROUP 将数据分组,类似SQL的分组函数。 JOIN 两个或两个以上的关系(内连接或外部连接)多个文件之间的关联关系。 LOAD 从文件系统加载数据。 ORDER 根据一个或多个字段对关系进行排序,支持升序asc和降序desc。 SPLIT 将一个关系划分为两个或两个以上的关系。 STORE 把数据存储到HDFS中 [4]