我不知道如何回答“如何扩大规模?”为您的数据集。在问题上投入更多硬件/ RAM,和/或搜索巧妙的分布式实现(但Spark MLLib 1.4不实现分层聚类)。
你的问题有点令人困惑,请阅读为什么我这么认为。
我不明白层次聚类最终会如何帮助您预测数字类属性。
如果您肯定需要对分类属性进行聚类,请检查EM clusterer / algorithm的实现,例如:在R包RWeka。默认情况下,EM的实现确定了最佳的簇数(可能是局部最小值?),它给出了层次结构中每个分类值的概率,以及每个簇的先验概率。
您可以使用其他群集算法或包。
如果您已经有一个带有类属性的训练集,那么您也可以尝试使用RWeka :: J48()分类器来创建决策树和一些预测。你会得到一些分层的东西,并且在调整之后,你可以得到你想要的级别。
如果您不想使用RWeka,可以使用包rpart :: rpart()作为决策树。