训练集:用于查找最近邻居。 验证集:用于查找适用于火车组的不同k。 测试集:用于在将来查找最大准确度和未见数据。
交叉验证集用于模型选择,例如,为给定参数集选择具有最小误差量的多项式模型。然后使用测试集报告所选模型的泛化错误。从这里: https://www.coursera.org/learn/machine-learning/lecture/QGKbr/model-selection-and-train-validation-test-sets
训练期间使用训练和验证集。
for each epoch for each training data instance propagate error through the network adjust the weights calculate the accuracy over training data for each validation data instance calculate the accuracy over the validation data if the threshold validation accuracy is met exit training else continue training
完成培训后,您将对抗测试集并验证准确性是否足够。
的 训练集 强> :此数据集用于调整神经网络上的权重。
的 验证集 强> :此数据集用于最小化过度拟合。您没有使用此数据集调整网络的权重,您只是验证训练数据集的准确度的任何提高实际上都会比以前未向网络显示的数据集提高准确度,或者至少网络没有接受过培训(即验证数据集)。如果训练数据集的准确度增加,但验证数据集的准确度保持不变或降低,则您的神经网络过度拟合,应该停止训练。
的 测试集 强> :此数据集仅用于测试最终解决方案,以确认网络的实际预测能力。