我想要训练一个性别分类器,但与一些问题相混淆..
大约有100,000个标记数据集(25,000名男性,75,000名女性)。我将这个数据集分为本地列车(60%)和本地-…
这里的问题不是关于比率,而是关于诊断您的模型是否存在高偏差(欠拟合)或高差异(过度拟合)的问题。
的 第一次运行 强> :
您的男性:女性比例为1:3,对男性进行了25,000次标记观察,对女性进行了75,000次标记观察。
看起来你的算法对于男性来说有很高的误差,对于你的测试分裂(40%)。找出您的训练分组错误(60%)。获得此信息后,请按以下步骤操作:
的 情况1 强> (可能):如果您的男性训练集错误很明显 的 降低 强> 比你的测试运行(我怀疑是这种情况),你的模型有很大的差异( 的 过度拟合 强> )。换句话说,您的模型很适合男性的训练数据,但未能概括为新的例子(测试数据)。解决此问题的一种方法是简单地添加更多数据。我认为这可能很难,因为你只有25,000个男性例子。解决这个问题的另一种方法是通过 的 正规化 强> 。你可以看到更多关于这一点 这里 。简而言之,正规化会使您的成本函数受到过高的过高(参数)的影响。非常高的θ值往往导致过度拟合。
的 案例2: 强> 如果您的男性训练集错误也是 的 高 强> (接近与测试运行错误相同的水平),您很可能具有高偏差(欠拟合)问题。解决此问题的一种方法是增加模型的复杂性。也许,添加更多功能,或使您的模型成为比目前更高阶的多项式函数。但要小心,你不希望你的女性分类因此而过度装配。
的 关于你第二次运行的评论: 强> 比率为50:50 减少 从75,000到25,000的女性观察很少会产生积极的影响。事实上,正如你所经历的那样,它甚至可能是有害的。在这种情况下,玩比率不是答案。再一次,诊断您的模型是否存在高差异或高偏差,并相应地进行。