PROSAGA码农传奇-机器学习-解释机器学习中的学习曲线

这条曲线是否可以远程实现，或者我的代码是否必然存在缺陷？

这是可能的，但不太可能。您可能会一直在挑选难以预测的训练集实例和测试集的简单实例。确保您随机播放数据并使用

10倍交叉验证

。

即使你做了这一切，它仍然可能发生，而不一定表明方法或实现中的问题。

如果它是正确的，那么在添加新的训练样例时，训练误差如何快速增长？交叉验证错误如何低于列车错误？

假设您的数据只能通过三次多项式正确拟合，并且您正在使用线性回归。这意味着您添加的数据越多，您的模型越不明显（更高的训练错误）。现在，如果您为测试集选择的实例很少，则误差会更小，因为对于此特定问题，对于太少的测试实例，线性与第3度可能不会显示出很大差异。

例如，如果对2D点进行一些回归，并且总是为测试集选择2个点，则线性回归的误差始终为0。一个极端的例子，但你明白了。

你的测试设置有多大？

此外，确保您的测试集在整个绘制学习曲线时保持不变。只有火车才会增加。

如果不是，任何提示我犯错的地方？

您的测试集可能不够大，或者您的列车和测试集可能没有正确随机化。您应该随机播放数据并使用10倍交叉验证。

您可能还想尝试查找有关该数据集的其他研究。其他人得到的结果是什么？

的
关于更新
</强>

我认为这更有意义。现在测试错误通常较高。但是，这些错误对我来说很重要。可能最重要的信息是，线性回归在拟合这些数据方面非常糟糕。

再一次，我建议你对学习曲线进行10倍交叉验证。可以把它想象为将所有当前的情节平均为一个。在运行进程之前也要对数据进行洗牌。