PROSAGA码农传奇-深度学习-不平衡数据集的一类文本分类

<div class =“post-text”itemprop =“text”>
  <P>
    首先，你确定那些被认为是负面的6000人没有积极的课程吗？垃圾，垃圾，确保不是这里的情况。
  </p>
  <H1>
    有什么方法可以解决这些问题
  </H1>
  <P>
    按顺序我会接近问题。
  </p>
  <UL>
    <LI>
      <P>
        确保您的数据表示良好。如果您正在使用文本数据，您应该使用像
        <a href="https://spacy.io/usage/vectors-similarity" rel="nofollow noreferrer">
          预训练的word2vec
        </A>
        ，也可用
        <a href="https://www.tensorflow.org/guide/embedding" rel="nofollow noreferrer">
          tensorflow
        </A>
         和
        <a href="https://tfhub.dev/" rel="nofollow noreferrer">
          张量流中心
        </A>
         （你可以在这里找到更高级的单词嵌入方法
        <a href="https://tfhub.dev/google/elmo/2" rel="nofollow noreferrer">
          ELMO
        </A>
        。
      </p>
    </LI>
    <LI>
      <P>
        获得更多示例 - 这个例子通常应该产生最好的结果（如果执行上面的步骤），但需要时间。
      </p>
    </LI>
    <LI>
      尝试不同的算法 - 一些算法并不真正关心类不平衡。我认为决策树及其变体是最突出的。你应该从简单的决策树开始检查它们，而不是
      <a href="https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html" rel="nofollow noreferrer">
        随机森林
      </A>
       和提升树木一样
      <a href="https://xgboost.readthedocs.io/en/latest/" rel="nofollow noreferrer">
        xgboost
      </A>
      ，
      <a href="https://lightgbm.readthedocs.io/en/latest/" rel="nofollow noreferrer">
        LightGBM
      </A>
       要么
      <a href="https://github.com/catboost/catboost" rel="nofollow noreferrer">
        catboost
      </A>
      ，最后三个应该表现得非常相似我认为，xgboost可能是最好的选择，因为有关这个主题的丰富材料。
    </LI>
    <LI>
      不同的指标 - 准确性不是最好的，因为它是由负面阶级高度激励。使用其他指标
      <a href="https://en.wikipedia.org/wiki/Precision_and_recall" rel="nofollow noreferrer">
        精确和召回
      </A>
       并专注于后者（因为你的算法可能找不到足够的积极类）。
    </LI>
    <LI>
      加权损失 - 对正例进行的误差加权高于负例。我喜欢它比下一个更好，因为模型试图适应数据。
      <a href="https://stackoverflow.com/questions/35155655/loss-function-for-class-imbalanced-binary-classifier-in-tensor-flow">
        这里
      </A>
       是Tensorflow中自定义丢失的一个示例。
    </LI>
    <LI>
      上采样 - 与你所做的相反，给你的模型多次相同的正例（在这种情况下每次5次，所以有6000个正面例子，和负数一样多）。您不会丢失信息，但培训需要更长时间（总共7200个示例基本上不存在问题）。
    </LI>
    <LI>
      欠采样 - 你在这里做了什么，但是你失去了很多关于负面类和它的特征的信息。对于更大的数据集更好，你的数据集很小。
    </LI>
    <LI>
      创造性的方法 - 文本数据更难，如果不是这样，你可以尝试减少维数或其他数据表示，这可能会找到积极和消极点之间差异的根本原因。最难的，可能对你的情况没有帮助。
    </LI>
  </UL>
  <H1>
    可以使用一个类SVM帮助
  </H1>
  <P>
    怀疑它，它用于异常值检测。 7200中的1200个数据点不应被视为异常值。此外，它可能与否定类共享许多功能，您无法使用您当前拥有的标记数据。
  </p>
  <P>
    如果你想尝试它，sklearn中有一个实现
    <a href="https://scikit-learn.org/stable/modules/generated/sklearn.svm.OneClassSVM.html" rel="nofollow noreferrer">
      这里
    </A>
    。
  </p>
</DIV>