测试训练-PRO科技-PROSAGA

摘要(Abstract)

在有监督(supervise)的机器学习中，数据集常被分成2~3个即：训练集(train set) 验证集(validation set) 测试集(test set) train 训练数据。拟合模型，用这部分数据来建立模型。是一些我们已经知道输入和输出的数据集训练机器去学习，通过拟合去寻找模型的初始参数。例如在神经网络（Neural Networks)中，我们用训练数据集和反向传播算法（Backpropagation）去每个神经元找到最优的比重（Weights)。 validation 验证数据。train建了一个模型，但是模型的效果仅体现了训练数据，但不一定适合同类的其他数据，所以建模前数据分成两部分，一部分为训练数据，一部分为验证数据（两部分数据的比例大致为7:3，这取决于你验证的方法）。另外，你也可能训练多个模型，但不知哪个模型性能更佳，这时可以将验证数据输入不同模型进行比较。是一些我们已经知道输入和输出的数据集，通过让机器学习去优化调整模型的参数，在神经网络中，我们用验证数据集去寻找最优的网络深度（number of hidden layers)，或者决定反向传播算法的停止点；在普通的机器学习中常用的交叉验证（Cross Validation) 就是把训练数据集本身再细分成不同的验证数据集去训练模型。 test 测试数据。跟前两者的最大区别在于：train和validation数据均是同一对象的数据，但是测试，我们就需要用跨对象的数据来验证模型的稳定性。