实用文案
标准文档
Hive 是一个基于 Hadoop分布式系统上的数据仓库, 最早是由 Facebook公司开发的, Hive极大的推
进了 Hadoop ecosystem 在数据仓库方面上的发展。
Facebook 的分析人员中很多工程师比较擅长而 SQL而不善于开发 MapReduce程
序,为此开发出 Hive,并对比较熟悉 SQL的工程师提供了一套新的 SQL-like 方言—— Hive QL。
Hive SQL 方言特别和 MySQL方言很像,并提供了 Hive QL 的编程接口。 Hive QL
语句最终被 Hive 解析器引擎解析为 MarReduce程序,作为 job 提交给 Job Tracker 运行。这对
MapReduce框架是一个很有力的支持。
Hive 是一个数据仓库,它提供了数据仓库的部分功能:数据 ETL(抽取、转换、
加载 )工具,数据存储管理,大数据集的查询和分析能力。
由于 Hive是Hadoop上的数据仓库,因此 Hive也具有高延迟、批处理的的特性,
即使处理很小的数据也会有比较高的延迟。 故此,Hive的性能就和居于传统数据库的数据仓库的
性能不能比较了。
Hive 不提供数据排序和查询的 cache功能,不提供索引功能,不提供在线事物,
也不提供实时的查询功能, 更不提供实时的记录更性的功能, 但是, Hive能很好地处理在不变的
超大数据集上的批量的分析处理功能。 Hive是基于 hadoop平台的,故有很好的扩展性 (可以自适
应机器和数据量的动态变化 ),高延展性 (自定义函数 ),良好的容错性, 低约束的数据输入格式。
下面我们来看一下 Hive的架构和执行流程以及编译流程:
实用文案
标准文档
用户提交的 Hive QL 语句最终被编译为 MapReduce程序作为 Job提交给 Hadoop执
行。
Hive 的数据类型
Hive 的基本数据类型有: TINYINT,SAMLLINT,INT,BIGINT,BOOLEAN,FLOAT,
DOUBLE,STRING,TIMESTAMP(V0.8.0+) 和BINARY(V0.8.0+) 。
Hive 的集合类型有: STRUCT,MAP和ARRAY。
Hive 主要有四种数据模型 ( 即表
Hive/数据/提供/功能/仓库/QL/Hadoop/类型/分析/MapReduce/
Hive/数据/提供/功能/仓库/QL/Hadoop/类型/分析/MapReduce/
-->