ETL是一种提取数据,转换(连接,充实,过滤,...)它并将结果加载到另一个数据存储中的工具。良好的ETLS是可视化的,数据存储不可知并且易于自动化。
Hadoop是一个分布在集群网络和软件上的数据存储,用于处理发现的数据。数据转换专门针对少数基本操作,这些操作可以针对这种通常大量的数据进行优化,例如(但不仅仅是)Map-Reduce。
Pentaho Data Integrator具有Hadoop系统的连接器,易于设置和调整。因此,最好的策略是将Hadoop网络设置为数据存储并通过PDI对其进行操作。
Pentaho PDI是一个用于创建,管理,运行和监控ETL工作流的工具。它可以与Hadoop,RDBMS,队列,文件等一起使用.Hadoop是一个分布式计算平台(Map-Reduce框架,HDFS等)。许多工具可以在Hadoop上运行,也可以连接到Hadoop并使用它的数据,运行进程。
Pentaho PDI可以使用自己的连接器和写入/读取数据连接到Hadoop。您可以从PDI启动Hadopp作业,也可以在转换流程中自行处理数据并将结果存储或发送到HDFS,RDBMS,某些队列,电子邮件等。当然,您可以为ETL工作流创建自己的工具,或者只使用bash + Hive等,但PDI允许以统一的方式进行ETL处理,而不依赖于数据源和目标。 Pentaho也有很好的可视化。