7_regularization.pdf


立即下载 满目山河
2026-03-11
正则化 参数 梯度 权重 目标 函数 模型 化项 策略 向量
557.2 KB

1. 目前有多种正则化策略:
有些策略是向机器学习模型添加额外的约束,如增加对参数的限制
有些策略是向目标函数增加额外项,此时对应于参数值的软约束
有时候这些策略代表了特定类型的先验知识。有时候这些策略代表了对模型的偏好(比如偏好简单的模型)
2. 在深度学习中,大多数正则化策略都是基于对估计量进行正则化:以偏差的增加来换取方差的减少
一个有效的正则化能显著降低方差,而不会过度增加偏差
3. 我们几乎从来无法知晓真实数据的生成过程,因此我们永远不知道被估计的模型族是否包含真实的生成过程。
在实际的深度学习场景中,最好的拟合模型(基于最小泛化误差)是一个适当正则化的大型模型
1. 一些正则化方法通过对目标函数 添加一个参数范数正则化项 来限制模型的容量 capacity 。正则化之后的目标函数为 :
为正则化项的系数。它衡量正则化项 和标准目标函数 的比重。
则没有正则化
越大,则正则化项越重要
如果最小化 ,则会同时降低 和参数 的规模
2. 选择不同的 的形式会产生不同的解。常见的有 正则化和 正则化
1. 正则化通常被称作岭回归或者 Tikhonov 正则化。
正则化项为 。系数 是为了使得导数的系数为 1.
该正则化形式倾向于使得参数 更接近零
2. 假设 参数就是权重 ,没有偏置参数。则:
对应的梯度为
3. 使用梯度下降法来更新权重,给出权重的更新公式为:

可以看到: 经过 正则化之后,采用梯度下降法时:每一步执行梯度更新之前,会对权重向量乘以一个常数因子来收缩权重向量。这就是 正则化对于单步更新的影响。
4. 令 ,它就是无正则化项时使得目标函数最小的权重向量。在 的邻域内泰勒展开(根据极小值的条件,有梯度为零):
为 在 处的海森矩阵。 的梯度为:
5. 令 ,它就是有正则化项时使得目标函数最小的权重向量。此时梯度为零:
将 替换 有:
当 时,
因为 是实对称矩阵,对其进行特征值分解。特征值组成对角矩阵 ,对应的特征向量组成正交矩阵 。
章7 正则化
一、 基本概念
二、 参数范数正则化
J Ω(θ) J
~
(θ; X, ) = J(θ; X, ) + αΩ(θ)J
~
y⃗ y⃗
α ∈ [0, ∞) Ω(θ)


正则化/参数/梯度/权重/目标/函数/模型/化项/策略/向量/ 正则化/参数/梯度/权重/目标/函数/模型/化项/策略/向量/
-1 条回复
登录 后才能参与评论
-->