我们正在支持一个运行ETL工具触发的大型hive查询的应用程序。
映射在hive上运行后的查询。查询非常大,但其结构如下所示。
插入 …
您问题中的这些子查询不是问题,优化器会关注此问题。不会有多次读取相同的数据。您的查询只读取一次源: FROM sw.v_cust_info_pr t1 。整个查询将在两个顶点中执行 - Mapper 1和Reducer 2.使用 解释选择 检查这个。为了加快处理速度, 使用Tez,CBO,矢量化,PPD,在映射器和缩减器上调整适当的并行性 。使用地图侧聚合 set hive.map.aggr = true;
FROM sw.v_cust_info_pr t1
set hive.map.aggr = true;