你的模式看起来很正确。我将首先使用cron作业来调用触发该脚本的脚本 Load 任务管道。看起来像这样 Load 任务已经验证了S3存储桶中是否存在新文件,但您必须将输出更改为条件,如果没有任何操作,则可以是状态文件或其他内容。您也可以在更高级别执行此操作 WrapperTask (没有输出)只需要 Load 只有在有新文件时才会执行任务。然后你可以用它 WrapperTask 需要两个不同的Load任务,分别需要你的 Transform1 和 Transform2 。
Load
WrapperTask
Transform1
Transform2
添加容器......我的cron真正调用的是一个脚本,它从git中提取我的最新代码,必要时构建一个新容器,然后调用docker run。我有另一个总是在运行的容器 luigid 。每日docker run使用在容器中执行shell脚本 CMD 用当天所需的参数调用luigi任务。
luigid
CMD