我喜欢Featuretools,但是由于担心数据泄漏,我很难在数据科学工作流程中使用它。
我认为,防止这种情况的方法是对训练集进行深度特征综合,然后将适当的值加入测试集,然后仅对训练集中不存在的类别组计算特征。
有没有更合适的方法来处理泄漏?