段落矢量或Doc2vec模型大小

作者: 哎？小查查
发布时间: 2025-03-05 03:24:48 (1天前)
转自：

2 条回复

0#
回复此人
凯撒 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 我不熟悉dl4j实现，但模型大小由唯一字向量/ doc向量的数量和所选向量大小决定。 </p> <P> （330MB / 17百万）意味着你的每个文件平均只有20个字节 - 非常小 <code> Doc2Vec </code> ！ </p> <P> 但是，例如，如果您正在为每个doc培训300维doc文档，并且每个维度（通常）是4字节的浮点数，则（1700万* 300 dims * 4字节/ dim）= 20.4GB 。然后会有更多的空间用于单词向量和模型内部权重/词汇/等，所以你报告的存储大小并不难以置信。 </p> <P> 根据您所描述的尺寸，过度拟合的风险也很大 - 如果使用300维，您可以将＆lt; 20字节源材料的文档建模为（300 * 4 =）1200字节的doc-vectors。 </p> <P> 在某种程度上，这使得模型倾向于一个巨大的，记忆输入的查找表，因此不太可能捕获有助于理解培训文档或新文档的可推广模式。有效的学习通常看起来有点像压缩：将源材料建模为更小但更突出的东西。 </p> </DIV>

编辑

登录后才能参与评论