7_regularization.pdf

立即下载 作者: 满目山河
上传时间: 2026-03-11
关键词: 正则化参数梯度权重目标函数模型化项策略向量
大小 557.2 KB
描述

   1. 目前有多种正则化策略：
有些策略是向机器学习模型添加额外的约束，如增加对参数的限制
有些策略是向目标函数增加额外项，此时对应于参数值的软约束
有时候这些策略代表了特定类型的先验知识。有时候这些策略代表了对模型的偏好（比如偏好简单的模型）
2. 在深度学习中，大多数正则化策略都是基于对估计量进行正则化：以偏差的增加来换取方差的减少
一个有效的正则化能显著降低方差，而不会过度增加偏差
3. 我们几乎从来无法知晓真实数据的生成过程，因此我们永远不知道被估计的模型族是否包含真实的生成过程。
在实际的深度学习场景中，最好的拟合模型（基于最小泛化误差）是一个适当正则化的大型模型
1. 一些正则化方法通过对目标函数  添加一个参数范数正则化项  来限制模型的容量 capacity  。正则化之后的目标函数为 ：
 为正则化项的系数。它衡量正则化项  和标准目标函数  的比重。
 则没有正则化
 越大，则正则化项越重要
如果最小化 ，则会同时降低  和参数  的规模
2. 选择不同的  的形式会产生不同的解。常见的有  正则化和  正则化
1.  正则化通常被称作岭回归或者 Tikhonov 正则化。
正则化项为 。系数  是为了使得导数的系数为 1.
该正则化形式倾向于使得参数  更接近零
2. 假设  参数就是权重 ，没有偏置参数。则：
对应的梯度为
3. 使用梯度下降法来更新权重，给出权重的更新公式为：
即
可以看到： 经过  正则化之后，采用梯度下降法时：每一步执行梯度更新之前，会对权重向量乘以一个常数因子来收缩权重向量。这就是  正则化对于单步更新的影响。
4. 令 ，它就是无正则化项时使得目标函数最小的权重向量。在  的邻域内泰勒展开（根据极小值的条件，有梯度为零）：
 为  在  处的海森矩阵。  的梯度为：
5. 令 ，它就是有正则化项时使得目标函数最小的权重向量。此时梯度为零：
将  替换  有：
当  时，
因为  是实对称矩阵，对其进行特征值分解。特征值组成对角矩阵 ，对应的特征向量组成正交矩阵 。
章7 正则化
一、 基本概念
二、 参数范数正则化
J Ω(θ) J
~
(θ; X, ) = J(θ; X, ) + αΩ(θ)J
~
y⃗ y⃗
α ∈ [0, ∞) Ω(θ)

目录
正则化/参数/梯度/权重/目标/函数/模型/化项/策略/向量/ 正则化/参数/梯度/权重/目标/函数/模型/化项/策略/向量/

-1 条回复

登录后才能参与评论