在训练多物体探测器时,您通常会(至少)有两种类型的损失: 1。 loss_bbox 一种损失,衡量模型在真实物体周围预测的边界盒的“紧密”程度(通常是回归损失, L1 , smoothL1 等等。)。 2。 loss_cls 衡量正确性的损失 分类 每个预测的边界框:每个框可以包含一个对象类,或“背景”。这种损失通常是交叉熵损失。
loss_bbox
L1
smoothL1
loss_cls
在训练探测器时,模型预测每个图像可能存在很多(~1K)个盒子。它们中的大多数是空的(即属于“背景”类)。损失函数将每个预测框与图像的地面实况框注释相关联。 如果预测的框与地面实况框有重要的重叠,那么 loss_bbox 和 loss_cls 计算模型能够预测地面实况框的程度。 另一方面,如果预测的框与任何地面实况框没有重叠,那么 loss_cls 是为“背景”类计算的。 然而,如果仅与地面实况非常部分重叠,则预测框被“丢弃”并且不计算损失。我怀疑,出于某种原因,你的训练课就是这种情况。 我建议你检查决定预测盒装和地面真实注释之间关联的参数。此外,查看“锚点”的参数:这些参数决定了预测框的比例和纵横比。