大规模的文本分层聚类

作者: 老人与海
发布时间: 2024-09-03 05:30:13 (12天前)
转自：

2 条回复

0#
回复此人
無口君 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 我不知道如何回答“如何扩大规模？”为您的数据集。在问题上投入更多硬件/ RAM，和/或搜索巧妙的分布式实现（但Spark MLLib 1.4不实现分层聚类）。 </p> <P> 你的问题有点令人困惑，请阅读为什么我这么认为。 </p> <P> 我不明白层次聚类最终会如何帮助您预测数字类属性。 </p> <P> 如果您肯定需要对分类属性进行聚类，请检查EM clusterer / algorithm的实现，例如：在R包RWeka。默认情况下，EM的实现确定了最佳的簇数（可能是局部最小值？），它给出了层次结构中每个分类值的概率，以及每个簇的先验概率。 </p> <P> 您可以使用其他群集算法或包。 </p> <P> 如果您已经有一个带有类属性的训练集，那么您也可以尝试使用RWeka :: J48（）分类器来创建决策树和一些预测。你会得到一些分层的东西，并且在调整之后，你可以得到你想要的级别。 </p> <P> 如果您不想使用RWeka，可以使用包rpart :: rpart（）作为决策树。 </p> </DIV>

编辑

登录后才能参与评论