如果您在步骤1中的流程使用了所有数据。然后,您正在学习的功能包含整个数据集的信息。由于您是根据整个数据集和THEN验证选择的,因此您正在泄漏严重的信息。
你可能应该坚持使用众所周知/已经为你做过的工具,然后再用完这些奇怪的策略。尝试使用具有L1正则化的模型为您进行特征选择,或者从顺序向后选择等一些更简单的搜索开始。
如果最终正确地进行了交叉验证,则每次培训都会执行自己独立的功能选择。如果你做了一个全局特征选择,然后做了简历,你就会做错了,可能会泄漏信息。