文章中有一个暗示。正对的数量应为1000 * N *(N≥1)/ 2,而所有对的数量为1000 * N(1000N≤1)/ 2。当然,如果测试集是随机采样的,那么所有对的数量都要大得多。
正如作者所提到的,在评估测试集上对1的持续预测之后,您可以判断采样不是随机进行的。您获得的准确率为50%。如果采样正确完成,这个值应该低得多。
因此,他们构建了关联矩阵并计算了我们的ID特征的表示之间的点积(相似性度量)。然后,他们重复使用恒定预测(50%)获得的关于准确度的信息,以获得相应的阈值(f> 14)。它设置为大于14,因为它构成我们测试集的大约一半,这反过来又映射回50%的准确度。
“魔法”值不必大于14.它可能等于14.你可以在一些排行榜探测之后调整这个值(只要你捕获一半的测试集)。