在随机森林的Mllib版本中,可以用参数指定具有名义特征(数字但仍是分类变量)categoricalFeaturesInfo 的列ML随机森林有什么用?在用户指南中,有一个使用VectorIndexer 的示例,该示例也可以转换vector中的分类特征,但是它写为“自动识别分类特征并对其进行索引”
在关于同一问题的其他讨论中,我发现在随机森林中无论如何数字索引都被视为连续特征,建议您执行一次热编码以避免这种情况,在这种算法的情况下似乎没有意义,并且特别是考虑到上述官方示例!
我还注意到,当分类列中有很多类别(> 1000)时,一旦用StringIndexer对其进行了索引,随机森林算法就会要求我设置MaxBin参数,该参数应该与连续功能一起使用。这是否意味着如官方示例中所指定的那样,将要将超过箱数的特征视为连续特征,因此对于我的分类列,StringIndexer是可以的,还是意味着整个具有数字标称特征的列都将是假设变量是连续的,进行分类?