首先,你确定那些被认为是负面的6000人没有积极的课程吗?垃圾,垃圾,确保不是这里的情况。
按顺序我会接近问题。
确保您的数据表示良好。如果您正在使用文本数据,您应该使用像 预训练的word2vec ,也可用 tensorflow 和 张量流中心 (你可以在这里找到更高级的单词嵌入方法 ELMO 。
获得更多示例 - 这个例子通常应该产生最好的结果(如果执行上面的步骤),但需要时间。
怀疑它,它用于异常值检测。 7200中的1200个数据点不应被视为异常值。此外,它可能与否定类共享许多功能,您无法使用您当前拥有的标记数据。
如果你想尝试它,sklearn中有一个实现 这里 。