我试图了解spark如何在YARN群集/客户端上运行。我的脑海中有以下问题。
是否有必要在纱簇的所有节点上安装火花?我认为应该是因为集群中的工作程序节点执行任务,并且应该能够解码驱动程序发送给集群的spark应用程序中的代码(spark API)?
它在文档中说“确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群的(客户端)配置文件的目录”。为什么客户端节点在将作业发送到集群时必须安装Hadoop?