python常见特征工程


立即下载 WL
2024-03-15
特征 数据 定量 IRIS 工程 及格 Iris 鸢尾 模型 学习
293.8 KB

1 特征工程是什么?
有这么一句话在业界广泛流传: 数据和特征决定了机器学习的上限, 而模型和算法只是逼近
这个上限而已。 那特征工程到底是什么呢?顾名思义, 其本质是一项工程活动, 目的是最大限度
地从原始数据中提取特征以供算法和模型使用。 通过总结和归纳, 人们认为特征工程包括以下方
面:
特征处理是特征工程的核心部分, sklearn 提供了较为完整的特征处理方法,包括数据预处
理,特征选择,降维等。首次接触到 sklearn ,通常会被其丰富且方便的算法模型库吸引,但是
这里介绍的特征处理库也十分强大!
本文中使用 sklearn 中的 IRIS (鸢尾花)数据集 来对特征处理功能进行说明。 IRIS 数据集
由 Fisher 在 1936 年整理,包含 4 个特征( Sepal.Length (花萼长度)、 Sepal.Width (花萼宽
度)、 Petal.Length (花瓣长度)、 Petal.Width (花瓣宽度)),特征值都为正浮点数,单位为
厘米。目标值为鸢尾花的分类 ( Iris Setosa(山鸢尾)、Iris Versicolour (杂色鸢尾) ,Iris Virginica
(维吉尼亚鸢尾))。导入 IRIS 数据集的代码如下:
1 from sklearn.datasets import load_iris
2
3 #导入 IRIS 数据集
4 iris = load_iris()
5
6 #特征矩阵
7 iris.data
8
9 #目标向量
10 iris.target
2 数据预处理
通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:
不属于同一量纲:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问
题。
信息冗余:对于某些定量特征,其包含的有效信息为区间划分,例如学习成绩,假若只关
心“及格”或不“及格”,那么需要将定量的考分,转换成 “1”和“0”表示及格和未及格。二值化
可以解决这一问题。
定性特征不能直接使用:某些机器学习算法和模型只能接受定量特征的输入,那么需要将
定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值,但是这种方
式过于灵活,增加了调参的工作。 通常使用哑编


特征/数据/定量/IRIS/工程/及格/Iris/鸢尾/模型/学习/ 特征/数据/定量/IRIS/工程/及格/Iris/鸢尾/模型/学习/
-1 条回复
登录 后才能参与评论
-->