假设我有一个非常大的数据集(1 mil),我已经将训练,验证,测试百分比设置为 75:15:10 。
75:15:10
在您提到的非常大的数据集上,您可以使用 98:1:1 。
98:1:1
因此,列车,测试和验证集将成为主数据集的一部分。 我们假设你的数据集有 x 观察(即x行) 当你这样做的时候 train, validation and test spilts 你按照你指定的百分比分割它。 的 百分比的总和应该加起来 100% 强> 。 因此当你做一个 75:15:10 分裂。它意味着数据 x 行将被拆分为 x * .75 rows 作为火车集。其余的 25% -- y 数据的, y * .15 将是验证集,其余的将测试集。 正如你所看到的,他们都加起来 100% 。 通常最好的做法是使用火车,测试拆分 75:25 。 要了解更重要的原因,请阅读此内容 中篇文章 。
x
train, validation and test spilts
100%
x * .75 rows
25% -- y
y * .15
75:25