我正在尝试从CDH 6社区版本的远程计算机上运行java中的简单mllib函数(fpgrowth)。
作为默认我试图像这样连接:
`SparkConf conf = new SparkConf()….
遗憾的是,在Spark中从本地模式切换到集群模式并不容易,但它是一个记录良好的过程。您还必须确保可以从群集的每个执行节点访问您的文件(如果使用任何文件),方法是将它们放在HDFS上。
首先,您必须确保在运行代码的计算机上配置Hadoop的客户端,然后才能执行代码。
通常,您将使用 spark-submit 如:
spark-submit
$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ --driver-memory 4g \ --executor-memory 2g \ --executor-cores 1 \ --queue thequeue \ examples/jars/spark-examples*.jar \ 10
但你也应该能够执行它:
SparkSession spark = SparkSession.builder() .appName("app") .master("yarn") .getOrCreate();
您将在以下位置找到更多详情: https://spark.apache.org/docs/latest/running-on-yarn.html 。