PROSAGA码农传奇-hadoop其他-将保存在RDBMS中的非结构化数据卸载到Hadoop

<div class =“post-text”itemprop =“text”>
  
    您可以在oracle博客中获得部分答案（
    <a href =“https://blogs.oracle.com/datawarehousing/data-loading-into-hdfs-part2-data-movement-from-the-oracle-database-to-the-hdfs”rel =“nofollow noreferrer “>
      链接
    </A>
    ）。
  
  
    如果需要通过sqoop在HDFS环境中提取数据，则必须首先从sqoop文档中读取以下内容。
  
  
    
      Sqoop以特定方式处理大对象（BLOB和CLOB列）。如果这个数据真的很大，那么这些列不应该在内存中完全实现，以便进行操作，就像大多数列一样。相反，他们的数据以流式方式处理。大对象可以与其余数据一起存储，在这种情况下，它们在每次访问时在内存中完全实现，或者它们可以存储在链接到主数据存储的辅助存储文件中。默认情况下，大小小于16 MB的大对象与其余数据内联存储。在较大的大小，它们存储在导入目标目录的_lobs子目录中的文件中。这些文件以针对大型记录存储优化的单独格式存储，可以容纳最多2 ^ 63个字节的记录。 lobs溢出到单独文件中的大小由--inline-lob-limit参数控制，该参数采用指定最大lob大小的参数来保持内联，以字节为单位。如果将内联LOB限制设置为0，则所有大对象都将放置在外部存储中。
    
  
  
    如果您使用像Impala这样的MPP查询引擎，那么可以通过Web应用程序进行阅读，它可以很好地工作，并且它是生产就绪技术。我们大量使用复杂的Impala查询来为SpringBoot应用程序呈现内容。由于Impala在内存中运行所有内容，因此如果它是多租户Cloudera集群，则可能会出现缓慢或失败。对于较小的用户群（1000-2000用户群），它可以很好地工作。
  
  
    如果您需要更多输入，请告诉我。
  
  
    建议将是
  
  <OL>
    <LI>
      使用Cloudera发行版（
      <a href="https://www.cloudera.com/documentation/enterprise/5-3-x/topics/impala_intro.html" rel="nofollow noreferrer">
        在这里阅读
      </A>
      ）
    </LI>
    <LI>
      为Impala Deamons提供足够的内存
    </LI>
    <LI>
      确保为基于ETL负载与Web应用程序负载的计划（公平共享或优先级共享）正确配置YARN
    </LI>
    <LI>
      如果需要，请让Impala守护进程远离YARN
    </LI>
    <LI>
      为Impala Memory定义内存配额，以便允许并发查询
    </LI>
    <LI>
      展平您的查询，以便Impala在没有连接和随机播放的情况下运行得更快。
    </LI>
    <LI>
      如果您只阅读几列，请在Parquet中存储，它的工作速度非常快。
    </LI>
  </醇>
</DIV>