主要区别在于它们如何存储从值到值发生的行的映射,以便在查询时我们可以快速识别具有相关数据的块。
的 紧凑的索引 强> 存储一对索引列的值及其块id 的 位图索引 强> 将索引列值和行列表的组合存储为位图。
的 位图索引 强> 是一种标准技术,用于索引具有很少不同值的列。
我建议阅读这篇优秀的博客文章 Hive索引 。
的 附加信息 强>
您可能还想知道其他一些事情。
使用Hive 3.0删除了索引,他们建议使用物化视图来实现类似的结果,但我会说像柱状存储一样 PARQUET 要么 ORC ,他们可以进行选择性扫描甚至跳过整个文件/块。
PARQUET
ORC
ORC format已构建索引,允许格式在读取期间跳过数据块,它们还支持Bloom过滤器索引。