通过利用测试数据了解数据泄漏并获得完美分数

作者: 誓言
发布时间: 2024-10-03 04:19:59 (2小时前)
转自：

2 条回复

0#
回复此人
青年@ | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 文章中有一个暗示。正对的数量应为1000 * N *（N≥1）/ 2，而所有对的数量为1000 * N（1000N≤1）/ 2。当然，如果测试集是随机采样的，那么所有对的数量都要大得多。 </p> <P> 正如作者所提到的，在评估测试集上对1的持续预测之后，您可以判断采样不是随机进行的。您获得的准确率为50％。如果采样正确完成，这个值应该低得多。 </p> <P> 因此，他们构建了关联矩阵并计算了我们的ID特征的表示之间的点积（相似性度量）。然后，他们重复使用恒定预测（50％）获得的关于准确度的信息，以获得相应的阈值（f> 14）。它设置为大于14，因为它构成我们测试集的大约一半，这反过来又映射回50％的准确度。 </p> <P> “魔法”值不必大于14.它可能等于14.你可以在一些排行榜探测之后调整这个值（只要你捕获一半的测试集）。 </p> </DIV>

编辑

登录后才能参与评论