只是为了增加上面非常好的答案。不同之处在于,PCA将尝试通过探索数据的一个特征如何用其他特征(线性依赖性)来表达来减少维数。 而是选择特征,将目标考虑在内。它将根据输入变量预测目标值的有效性对输入变量进行排名。对于单变量特征选择也是如此。 多变量特征选择也可以做一些可以被认为是PCA形式的东西,因为它会丢弃输入中的一些特征。但是不要把这个类比太过分了。
只是为了增加@Roger Rowland的答案。在监督学习(分类,回归)的背景下,我喜欢将PCA视为“特征变换器”而不是特征选择器。
PCA基于提取数据显示最高可变性的轴。虽然它在新的基础上“展开”数据,并且在无监督学习中可以提供很大帮助,但不能保证新轴与监督问题中的歧视特征一致。
更简单地说,在预测因变量(例如类标签)时,根本不能保证您的主要组成部分是最有用的。
这篇报告 是一个有用的来源。 另一个相关的交叉验证链接是 这里 。
PCA是一种找出哪些特征对于最好地描述数据集中的方差很重要的方法。它最常用于减小大数据集的维度,使得应用机器学习变得更加实际,其中原始数据本质上是高维度的(例如图像识别)。
PCA虽然有局限性,因为它依赖于特征元素之间的线性关系,而且在开始之前通常不清楚关系是什么。由于它还“隐藏”对数据差异贡献很小的特征元素,因此它有时可以消除影响机器学习模型性能的小而重要的区分因素。
您可以使用PCA进行功能选择。
主成分分析(PCA)是一种技术
“使用正交变换来转换一组观察结果 可能将相关变量转换为一组不相关的值 变量称为主成分。“ PCA帮助我们从根本上回答的问题是:哪个 这些M参数中的一个解释了一个显着的变化量 包含在数据集中? PCA基本上有助于应用80-20 规则:一小部分参数(比如说20%)可以解释80%或更多 数据的变化?
“使用正交变换来转换一组观察结果 可能将相关变量转换为一组不相关的值 变量称为主成分。“
PCA帮助我们从根本上回答的问题是:哪个 这些M参数中的一个解释了一个显着的变化量 包含在数据集中? PCA基本上有助于应用80-20 规则:一小部分参数(比如说20%)可以解释80%或更多 数据的变化?
(看这里)
但它有一些缺点:它对规模敏感,并且对更高数量级的数据给予更多权重。数据规范化并不总是解决方案,如下所述:
http://www.simafore.com/blog/bid/105347/Feature-selection-with-mutual-information-Part-2-PCA-disadvantages
还有其他方法可以进行功能选择:
特征选择算法可以看作是a的组合 用于提出新特征子集的搜索技术,以及 评估不同特征子集的评估度量。该 最简单的算法是测试每个可能的特征发现子集 最小化错误率的那个。这是一次详尽的搜索 这个空间,并且在计算上是难以处理的 最小的功能集。评估指标的选择很重要 影响算法,正是这些评估指标 区分特征选择的三个主要类别 算法:包装器,过滤器和嵌入式方法。
在某些字段中,特征提取可以建议特定目标:在图像处理中,您可能希望执行斑点,边缘或脊线检测。