的 TL; DR 强> 不要触摸辍学层。 Caffe知道它在推理期间应该什么也不做。
"Dropout" 确实是学习过程的一个非常有力的补充,它 似乎 对推理时间没有影响。 但是,如果你考虑一个天真的实现,在火车时刻只将一些神经元设置为零,在测试时你必须补偿激活 所有 神经元通过缩放激活(以获得信号的相同整体“强度”)。在这种情况下推理时间 "Dropout" 成为一个简单的比例层(通过已知和固定的比例因子)。 幸运的是,更周到的实现将这种扩展作为训练的一部分(即将一些神经元设置为零,并且 同时 扩大其余神经元的预定义 比例因子 ),这样,在推理时间 "Dropout" 层绝对[无] [3]。
"Dropout"
要了解更多信息 "Dropout" 对培训稳定性的贡献及其对网络泛化能力的影响,你可以阅读第7.12节 Bengio的深度学习书 。