您可以在oracle博客中获得部分答案( 链接 )。
如果需要通过sqoop在HDFS环境中提取数据,则必须首先从sqoop文档中读取以下内容。
Sqoop以特定方式处理大对象(BLOB和CLOB列)。如果这个数据真的很大,那么这些列不应该在内存中完全实现,以便进行操作,就像大多数列一样。相反,他们的数据以流式方式处理。大对象可以与其余数据一起存储,在这种情况下,它们在每次访问时在内存中完全实现,或者它们可以存储在链接到主数据存储的辅助存储文件中。默认情况下,大小小于16 MB的大对象与其余数据内联存储。在较大的大小,它们存储在导入目标目录的_lobs子目录中的文件中。这些文件以针对大型记录存储优化的单独格式存储,可以容纳最多2 ^ 63个字节的记录。 lobs溢出到单独文件中的大小由--inline-lob-limit参数控制,该参数采用指定最大lob大小的参数来保持内联,以字节为单位。如果将内联LOB限制设置为0,则所有大对象都将放置在外部存储中。
如果您使用像Impala这样的MPP查询引擎,那么可以通过Web应用程序进行阅读,它可以很好地工作,并且它是生产就绪技术。我们大量使用复杂的Impala查询来为SpringBoot应用程序呈现内容。由于Impala在内存中运行所有内容,因此如果它是多租户Cloudera集群,则可能会出现缓慢或失败。对于较小的用户群(1000-2000用户群),它可以很好地工作。
如果您需要更多输入,请告诉我。
建议将是