如果要并行导入查询结果,则每个映射任务都需要执行查询的副本,并通过Sqoop推断的边界条件对结果进行分区。您的查询必须包含令牌$ CONDITIONS,每个Sqoop进程将替换为唯一的条件表达式。您还必须使用—split-by选择拆分列。
$ sqoop import \
—query ‘SELECT a., b. FROM a JOIN b on (a.id == b.id) WHERE $CONDITIONS’ \
—split-by a.id
—target-dir /user/foo/joinresults
</code>