培训，验证，测试批量大小比率

作者: 楊♡
发布时间: 2025-01-12 09:04:56 (28天前)
转自：

3 条回复

0#
回复此人
樱花弄๑•ั็•็ | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <BLOCKQUOTE> <P> 假设我有一个非常大的数据集（1 mil），我已经将训练，验证，测试百分比设置为 <code> 75:15:10 </code> 。 </p> </BLOCKQUOTE> <P> 在您提到的非常大的数据集上，您可以使用 <code> 98:1:1 </code> 。 </p> </DIV>

编辑
1#
回复此人
子阳 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 因此，列车，测试和验证集将成为主数据集的一部分。 <BR/> 我们假设你的数据集有 <code> x </code> 观察（即x行）当你这样做的时候 <code> train, validation and test spilts </code> 你按照你指定的百分比分割它。 <BR/> 的<strong> 百分比的总和应该加起来 <code> 100% </code> </强> 。 <BR/> <BR/> 因此当你做一个 <code> 75:15:10 </code> 分裂。它意味着数据 <code> x </code> 行将被拆分为 <code> x * .75 rows </code> 作为火车集。其余的 <code> 25% -- y </code> 数据的， <code> y * .15 </code> 将是验证集，其余的将测试集。 <BR/> 正如你所看到的，他们都加起来 <code> 100% </code> 。 <BR/> <BR/> 通常最好的做法是使用火车，测试拆分 <code> 75:25 </code> 。 <BR/> <BR/> 要了解更重要的原因，请阅读此内容 <a href="https://towardsdatascience.com/train-validation-and-test-sets-72cb40cba9e7" rel="nofollow noreferrer"> 中篇文章 </A> 。 </p> </DIV>

编辑

登录后才能参与评论