PROSAGA码农传奇-深度学习-XOR神经网络，损失不会下降

<div class =“post-text”itemprop =“text”>
  
    我在其他地方找到了这个问题，所以我打算在这里发布答案。
  
  
    基本上，我原始代码中的问题是多维的。
  
  <OL>
    <LI>
      重量初始化。请注意，我使用了默认初始化
    </LI>
  </醇>
  <BLOCKQUOTE>
    
      net.initialize（）
    
  </BLOCKQUOTE>
  
    实际上
  
  <BLOCKQUOTE>
    
      net.initialize（initializer.Uniform（标度= 0.07））
    
  </BLOCKQUOTE>
  
    显然这些初始权重太小，网络永远不会跳出来。所以修复是
  
  <BLOCKQUOTE>
    
      net.initialize（mx.init.Uniform（1））
    
  </BLOCKQUOTE>
  
    执行此操作后，网络可以使用
     <code>
 sigmoid/tanh
 </code>
     作为
    的
      激活
    </强>
    和使用
     <code>
 L2Loss
 </code>
     作为
    的
      损失功能
    </强>
    。它与之合作
     <code>
 sigmoid
 </code>
     和
     <code>
 SigmoidBCELoss
 </code>
    。但是，它仍然没有用
     <code>
 tanh
 </code>
     和
     <code>
 SigmoidBCELoss
 </code>
    ，可以通过下面的第二项修复。
  
  <ol start =“2”>
    <LI>
      
         <code>
 SigmoidBCELoss
 </code>
         必须在输出层的这两个场景中使用。
      
      
        2.1。
        的
          线性激活
        </强>
         和
         <code>
 SigmoidBCELoss(from_sigmoid=False)
 </code>
        ;
      
      
        2.2。
        的
          非线性激活
        </强>
         和
         <code>
 SigmoidBCELoss(from_sigmoid=True)
 </code>
        ，其中非线性函数的输出落入（0,1）。
      
    </LI>
  </醇>
  
    在我的原始代码中，当我使用时
     <code>
 SigmoidBCELoss
 </code>
    ，我正在使用全部
     <code>
 sigmoid
 </code>
    或者全部
     <code>
 tanh
 </code>
    。所以只需要更改输出层中的激活
     <code>
 tanh
 </code>
     至
     <code>
 sigmoid
 </code>
    ，网络可以融合。我还可以
     <code>
 tanh
 </code>
     在隐藏的图层中。
  
  
    希望这可以帮助！
  
</DIV>