理查德的工作应该很好,但如果有人愿意知道的话,我也得到了正式答案。
将较小的值设置为ReduceLROnPlateau调度程序(而不是Adam的)eps参数已经起作用。
eps(浮动) - 应用于lr的最小衰减。如果新旧lr之间的差异小于eps,则忽略更新。默认值:1e-8。
就个人而言,我不知道学习率的下限(0.0除外)。但是,通过在计算向后传递之前减少损失,您可以实现较低学习率的效果:
outputs = model(batch) loss = criterion(outputs, targets) # Equivalent to lowering the learning rate by a factor of 100 loss = loss / 100 self.optimizer.zero_grad() loss.backward() self.optimizer.step()