我注意到在培训期间经常发生这种情况NAN。
通常,它似乎是通过权重引入内部产品/完全连接或卷积层中的。
这是由于梯度计算正在爆炸而发生的吗?还是因为权重初始化(如果是这样,为什么权重初始化会产生这种效果)?还是可能是由于输入数据的性质引起的?
这里的首要问题很简单:在训练过程中发生NAN的最常见原因是什么?其次,有什么方法可以解决这个问题(为什么它们起作用)?