64
2.41 决策树
2.41.1 决策树的基本原理
决策树是一种分而治之(Divide and Conquer)的决策过程。一个困难的预测问题, 通过树的
分支节点, 被划分成两个或多个较为简单的子集,从结构上划分为不同的子问题。将依规则分
割数据集的过程不断递归下去(Recursive Partitioning)。随着树的深度不断增加,分支节点的子
集越来越小,所需要提的问题数也逐渐简化。当分支节点的深度或者问题的简单程度满足一定
的停止规则(Stopping Rule)时 , 该分支节点会停止劈分,此为自上而下的停止阈值(Cutoff
Threshold)法;有些决策树也使用自下而上的剪枝(Pruning)法。
2.41.2 决策树的三要素?
一棵决策树的生成过程主要分为以下 3 个部分:
特征选择:从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择
特征有着很多不同量化评估标准标准,从而衍生出不同的决策树算法。
决策树生成:根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分
则停止决策树停止生长。树结构来说,递归结构是最容易理解的方式。
剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有
预剪枝和后剪枝两种。
想要获取更多机器学习、深度学习、自
然语言处理、计算机视觉相关资料,添
加解惑者学院 Jews 老师微信:Jews_nlp
更有顶尖论文、项目经验及面试经验分
享,干货多多,不容错过!!!
65
2.41.3 决策树学习基本算法
2.41.4 决策树算法优缺点
决策树算法的优点:
1、理解和解释起来简单,决策树模型易想象。
2、相比于其他算法需要大量数据集而已,决策树算法要求的数据集不大。
3、决策树算法的时间复杂度较小,为用于训练决策树的数据点的对数。
4、相比于其他算法智能分析一种类型变量,决策树算法可处理数字和数据的类别。
5、能够处理多输出的问题。
6、对缺失值不敏感。
7、可以处理不相关特征数据。
8、效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策
树的深度。
决策树算法的缺点:
1、对连续性的字段比较难预测。
2、容易出现过拟合。
3、当类别太多时,错误可能就会增加的比较快。
决策/决策树/特征/剪枝/停止/算法/数据/深度/学习/树算法/
决策/决策树/特征/剪枝/停止/算法/数据/深度/学习/树算法/
-->