首先,这取决于您的模型是否可以管理NA(如xgboost)。 第二,辍学行为的解释(就像一个沮丧的人更有可能跳过任务)
有一个 的 整个文学 强> 关于这个问题。主要方法是:
所以在这里,您可以保留NA并使用xgboost,删除不完整的行或将最常用的值放在男性和女性之间
如果你想进一步的话,可以提出一些建议:
这很大程度上取决于您的数据。 但是你仍然可以做很少的事情并检查它们是否有效。
1.如果与行数相比缺少值,则最好丢弃它们。
2.如果有大的缺失值,请创建一个功能“IsMissing”(其他1为NULL 0)。有时它很有用。
3.如果您有大量数据并且不知何故您发现该功能非常重要,您可以使用您的列车数据训练模型来预测男性/女性。然后使用Null值行作为测试数据来预测它们的值(男/女)。
它完全取决于创造力和逻辑。你做的每一个假设都不能很好,因为你可以看到我上面描述的最后一个方法假设NULL值只能有两个值(M / F),实际上可能不是案件。
因此,请使用不同的策略,看看哪些对您的数据有用。
希望能帮助到你!!