我是Spark的新手,对不起,如果这个问题对你来说似乎很容易。我正在尝试提出类似Spark的解决方案,但无法弄清楚如何做到这一点。
我的DataSet如下所示:
欢迎来到SO!
这是Scala中的一个解决方案,您可以轻松地适应Java。
val df = spark.createDataset(Seq( "debt ceiling", "declaration of tax", "decryption", "sweats" )).toDF("input") df.select(size(split('input, "\\s+")).as("words")) .groupBy('words) .count .orderBy('words) .show
这产生了
+-----+-----+ |words|count| +-----+-----+ | 1| 2| | 2| 1| | 3| 1| +-----+-----+