PROSAGA码农传奇-hive-如何在hive表中选择分区和分区列？

<div class =“post-text”itemprop =“text”>
  
    在配置单元中，您可以根据使用模式创建表，因此您应该根据Analysis Queries的外观选择对存储分区进行分区。
  
  
    但是，建议采用以下方法
  
  
    的
      分区
    </强>
  
  <UL>
    <LI>
      分区可以帮助您使用谓词加速查询（即Where条件）。所以在你的情况下，如果
       <code>
 city_category
 </code>
       是您将在大多数情况下使用的字段，您应该选择该字段进行分区。
    </LI>
    <LI>
      它可能会降低其他查询的性能。
    </LI>
    <LI>
      需要确保基数不是太高，否则，您的查询性能会降低。
    </LI>
  </UL>
  
    要理解上述几点，您需要了解分区的工作原理。创建分区（或子分区）时，Hive会创建一个具有该名称的子文件夹，并将数据（文件）存储到这些文件夹中。
  
  
    所以，如果您基于分区
     <code>
 city_category
 </code>
     你的文件看起来像这样。
  
   <pre>
 <code>
 /data/table_name/city_category=A
/data/table_name/city_category=B
...
/data/table_name/city_category=E

</code>
 </pre>
  
    如果您提供，这有助于蜂巢找到特定记录
     <code>
 city_category
 </code>
     在
     <code>
 Where condition
 </code>
     因为它必须只扫描一个文件夹。
  
  
    但是，如果您尝试查找基于的记录
     <code>
 user_id
 </code>
     要么
     <code>
 product_id
 </code>
     然后蜂巢需要扫描所有文件夹。
  
  
    如果你最终基于分区，那么就说吧
     <code>
 purchase_amount
 </code>
    ，那么你会有很多文件夹。 NameNode必须维护每个文件夹和文件的位置，因此它会在NameNode上产生大量负载，并显然会降低查询的性能。
  
  
    的
      瓢泼大雨
    </强>
  
  <UL>
    <LI>
      如果您加入的另一个表具有相似的分组，它可以帮助您加快连接查询。
    </LI>
    <LI>
      但是，确保数据在分组中均匀分布是个好主意。
    </LI>
  </UL>
  
    它的作用是什么，它在给定字段上应用散列并基于它在存储中存储给定记录。
  
  
    所以，如果你基于的话，那么就说吧
     <code>
 city_category
 </code>
     并告诉创建50个桶。
  
   <pre>
 <code>
 CLUSTERED BY (city_category) INTO 50 BUCKETS

</code>
 </pre>
  
    因为我们只有5个类别，其他45个桶都是空的，这是你不想要的，因为它会降低你的查询性能。
  
</DIV>