您的SVM分类器经过培训,可以判断新(未知)实例是否是I. Setosa的实例。换句话说,您正在预测新的,未标记的实例是否是I.Setosa。
您可能找到了错误分类的结果,因为您的训练数据具有更多正面情况而非负面情况。此外,通常会有一些错误边际。
总结:您的SVM分类器学习了如何识别I.Setosa实例,但是,它提供的非I.Setosa实例的示例太少,这可能会让您产生偏见的模型。
我认为问题是语义问题:你将4000个样本的集合称为“未知”和“否定” - 其中哪些适用是关键区别。
如果4000个样本的标签确实是未知的,那么我将使用该标签进行1级SVM 6000个标记样本[c.f.验证如下]。然后通过测试N = 4000集来生成预测,以评估它们是否属于setosa类。
相反,如果我们有6000个setosa和4000个(已知的)非setosa,我们可以构造一个二进制文件 基于这些数据的分类器[c.f.下面的验证],然后用它来预测setosa与非on 任何其他可用的非标签数据。
验证: 通常作为模型构建过程的一部分,您将只采用标记的子集 训练数据并使用它来配置模型。对于未使用的子集,您将模型应用于数据(忽略标签),并将模型预测的内容与真实标签的内容进行比较,以便评估错误率。这适用于1级和 上面的2级情况。
总结:如果您的所有数据都已标记,那么通常还会对其中的一部分数据(忽略已知标签)进行预测,作为模型验证过程的一部分。