PROSAGA码农传奇-hadoop其他-Logistic回归分类器训练计数

<div class =“post-text”itemprop =“text”>
  
    这里的问题不是关于比率，而是关于诊断您的模型是否存在高偏差（欠拟合）或高差异（过度拟合）的问题。
  
  
    的
      第一次运行
    </强>
    ：
  
  
    您的男性：女性比例为1：3，对男性进行了25,000次标记观察，对女性进行了75,000次标记观察。
  
  
    看起来你的算法对于男性来说有很高的误差，对于你的测试分裂（40％）。找出您的训练分组错误（60％）。获得此信息后，请按以下步骤操作：
  
  
    的
      情况1
    </强>
     （可能）：如果您的男性训练集错误很明显
    的
      降低
    </强>
     比你的测试运行（我怀疑是这种情况），你的模型有很大的差异（
    的
      过度拟合
    </强>
    ）。换句话说，您的模型很适合男性的训练数据，但未能概括为新的例子（测试数据）。解决此问题的一种方法是简单地添加更多数据。我认为这可能很难，因为你只有25,000个男性例子。解决这个问题的另一种方法是通过
    的
      正规化
    </强>
    。你可以看到更多关于这一点
    <a href="http://www.holehouse.org/mlclass/07_Regularization.html" rel="nofollow">
      这里
    </A>
    。简而言之，正规化会使您的成本函数受到过高的过高（参数）的影响。非常高的θ值往往导致过度拟合。
  
  
    的
      案例2：
    </强>
     如果您的男性训练集错误也是
    的
      高
    </强>
     （接近与测试运行错误相同的水平），您很可能具有高偏差（欠拟合）问题。解决此问题的一种方法是增加模型的复杂性。也许，添加更多功能，或使您的模型成为比目前更高阶的多项式函数。但要小心，你不希望你的女性分类因此而过度装配。
  
  
    的
      关于你第二次运行的评论：
    </强>
    
比率为50:50
    
      减少
    
     从75,000到25,000的女性观察很少会产生积极的影响。事实上，正如你所经历的那样，它甚至可能是有害的。在这种情况下，玩比率不是答案。再一次，诊断您的模型是否存在高差异或高偏差，并相应地进行。
  
</DIV>