一般的答案是,它取决于您的数据格式(变量类型),因为不同FE / FS算法的输入空间差别很大。
所以,首先,请提供数据框架的结构。
但有一会儿,我会假设您有以下格式: 1)数字 2)因素,字符,逻辑和虚拟变量 3)数字和因子变量的混合
数字输入:PCA,LDA,anova,Pearson相关性应该可以帮助您降低维数。它的工作速度非常快,因为它是数字数据
因素&通过检查模型的重要变量,混合:anova,基于树的解决方案(随机森林,xgboost,立体主义)。假设您的数据没有太多级别(即具有200个选项的变量“city”等),这些选项也非常快。