hive语法和常用函数


立即下载 咿呀哟
2024-03-20
Hive 数据 提供 功能 仓库 QL Hadoop 类型 分析 MapReduce
1.3 MB

实用文案
标准文档
Hive 是一个基于 Hadoop分布式系统上的数据仓库, 最早是由 Facebook公司开发的, Hive极大的推
进了 Hadoop ecosystem 在数据仓库方面上的发展。
Facebook 的分析人员中很多工程师比较擅长而 SQL而不善于开发 MapReduce程
序,为此开发出 Hive,并对比较熟悉 SQL的工程师提供了一套新的 SQL-like 方言—— Hive QL。
Hive SQL 方言特别和 MySQL方言很像,并提供了 Hive QL 的编程接口。 Hive QL
语句最终被 Hive 解析器引擎解析为 MarReduce程序,作为 job 提交给 Job Tracker 运行。这对
MapReduce框架是一个很有力的支持。
Hive 是一个数据仓库,它提供了数据仓库的部分功能:数据 ETL(抽取、转换、
加载 )工具,数据存储管理,大数据集的查询和分析能力。
由于 Hive是Hadoop上的数据仓库,因此 Hive也具有高延迟、批处理的的特性,
即使处理很小的数据也会有比较高的延迟。 故此,Hive的性能就和居于传统数据库的数据仓库的
性能不能比较了。
Hive 不提供数据排序和查询的 cache功能,不提供索引功能,不提供在线事物,
也不提供实时的查询功能, 更不提供实时的记录更性的功能, 但是, Hive能很好地处理在不变的
超大数据集上的批量的分析处理功能。 Hive是基于 hadoop平台的,故有很好的扩展性 (可以自适
应机器和数据量的动态变化 ),高延展性 (自定义函数 ),良好的容错性, 低约束的数据输入格式。
下面我们来看一下 Hive的架构和执行流程以及编译流程:
实用文案
标准文档
用户提交的 Hive QL 语句最终被编译为 MapReduce程序作为 Job提交给 Hadoop执
行。
Hive 的数据类型
Hive 的基本数据类型有: TINYINT,SAMLLINT,INT,BIGINT,BOOLEAN,FLOAT,
DOUBLE,STRING,TIMESTAMP(V0.8.0+) 和BINARY(V0.8.0+) 。
Hive 的集合类型有: STRUCT,MAP和ARRAY。
Hive 主要有四种数据模型 ( 即表


Hive/数据/提供/功能/仓库/QL/Hadoop/类型/分析/MapReduce/ Hive/数据/提供/功能/仓库/QL/Hadoop/类型/分析/MapReduce/
-1 条回复
登录 后才能参与评论
-->