交叉验证中的信息泄漏

作者: ⑩Ⅵ嵗Ｄ夨憶
发布时间: 2024-12-27 08:03:40 (2月前)
转自：

2 条回复

0#
回复此人
我头上有犄角 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 如果您在步骤1中的流程使用了所有数据。然后，您正在学习的功能包含整个数据集的信息。由于您是根据整个数据集和THEN验证选择的，因此您正在泄漏严重的信息。 </p> <P> 你可能应该坚持使用众所周知/已经为你做过的工具，然后再用完这些奇怪的策略。尝试使用具有L1正则化的模型为您进行特征选择，或者从顺序向后选择等一些更简单的搜索开始。 </p> <P> 如果最终正确地进行了交叉验证，则每次培训都会执行自己独立的功能选择。如果你做了一个全局特征选择，然后做了简历，你就会做错了，可能会泄漏信息。 </p> </DIV>

编辑

登录后才能参与评论