如果您使用随机森林或梯度提升算法,他们有时会有一个已实现的功能,显示每个功能的“重要性”得分。
基本上算法选择某个特征的频率。您可以使用所有功能运行算法,然后查看此分数。在例如XGBoost未使用的功能甚至不会出现在该列表中。因此,您可以使用它来测试哪些功能很重要。
由于您具有许多功能,因此可以先使用随机的功能子集运行,然后再删除未使用或很少使用的功能。
我发现“重要性”一词在这里有点误导,因为杀死许多“不重要”的功能可能会导致相当大的性能损失。但是,测试不可用的功能肯定是一个很好的策略。