PROSAGA码农传奇-机器学习-在机器学习中标记数据集

<div class =“post-text”itemprop =“text”>
  
    在监督学习中，例如SVM，数据集应该如下组成：
  
   <pre>
 <code>
 <i-th feature vector><i-th label>

</code>
 </pre>
  
    哪里
     <code>
 i
 </code>
     从1到模式的数量（也是
    
      例子
    
     要么
    
      意见
    
    ）在训练集中，这表示训练集中的单个记录可用于训练SVM分类器。
  
  
    所以你基本上有一个由这样的元组组成的集合，如果你只有2个标签（二进制分类问题），你可以很容易地使用SVM。实际上，SVM模型将通过训练集和训练标签进行训练，一旦训练阶段结束，您可以使用另一组（称为验证集或测试集），其结构与训练集相同，测试SVM的准确性。
     
    
换句话说，SVM工作流程的结构应如下所示：
  
  <OL>
    <LI>
      使用训练集和训练标签训练SVM
    </LI>
    <LI>
      使用上一步中训练的模型预测验证集的标签
    </LI>
    <LI>
      如果您知道实际验证标签是什么，则可以将预测标签与实际标签进行匹配，并检查已正确预测的标签数量。正确预测的标签数与验证集中的标签总数之间的比率返回[0; 1]之间的标量，它被称为
      
        准确性
      
       您的SVM模型。
    </LI>
    <LI>
      如果您对ROI感兴趣，可能需要检查训练好的SVM参数（主要是权重和偏差）来重建分离超平面
    </LI>
  </醇>
  
    知道训练集记录应该是很重要的
    
      正确的，先验标记
    
    ：如果训练标签不正确，SVM将永远无法正确预测以前看不见的模式的输出。您不必根据要提取的ROI标记数据，必须事先正确标记数据：SVM将具有整个A类图片集和B类图片集，并将学习决策边界分离A型图片和B型图片。您不必欺骗标签：如果这样做，您就不会进行分类和/或机器学习和/或模式识别。你基本上是在欺骗结果。
  
</DIV>