8_optimization.pdf


立即下载 满目山河
2025-02-14
函数 损失 学习 优化 机器 分布 算法 经验 替代 样本
900.5 KB

1. 深度学习中,优化问题很重要,代价也很高。因此开发了一组专门的优化技术
1. 机器学习通常是间接的:我们关注于测试集上的某个不可解的性能度量 。
我们的做法是:希望通过降低代价函数 来提高 。这不同于纯粹的最小化 本身
2. 通常情况下,代价函数可以采用训练集上的均值代替:
为每个样本的损失函数
为对输入 的预测输出
是经验分布
在监督学习中, 为标记信息
通常我们更迫切希望的是:最小化期望取自真实的数据生成分布 ,而不是有限个训练集上对应的经验分布 。即,我们希望最小化泛化误差的期望:
3. 问题是:对于绝大多数问题,我们不知道样本的真实分布 ;我们仅仅知道训练集中的样本的分布。
一个简单方案是:使用经验分布 来代替真实分布 。此时将机器学习问题转化为最小化训练集上的期望损失,即最小化经验风险 empirical risk :
为训练样本的数量。
这种方案被称作经验风险最小化 empirical risk minimization
其缺点是:
很容易过拟合
某些类型的损失函数(如 0-1 损失函数) 没有导数(导数要么为零,要么没有定义),无法使用梯度下降的优化算法来优化
4. 在深度学习中,我们很少使用经验风险最小化
1. 有时候我们关心的真正的损失函数无法有效优化:如精确地最小化 0-1 损失函数是不可解的。(复杂度几何级数增长于输入的维数)。
此时我们考虑使用替代损失函数(如将正类的负对数似然函数作为 0-1 损失函数的替代)
负对数似然函数作为替代损失函数可以从训练集中比 0-1 损失函数学得更多信息。
2. 一般的优化和机器学习优化的一个重要不同:机器学习算法通常并不收敛于局部极小值。
机器学习算法通常优化替代损失函数
机器学习算法可能会基于 7.8 节的收敛条件提前终止(即早停策略作为正则化)。
通常提前终止采用的评判准则是:在验证集上,使用真实的损失函数来评估。
因此在提前终止发生时,替代损失函数仍然有较大的导数;而传统优化方法终止时,导数较小
1. 机器学习算法和一般优化算法不同的一点是:机器学习算法的目标函数通常可以分解为训练样本上的求和。
因此:机器学习优化算法通常可以使用整个代价函数中的一部分项去更新其参数。
如:最大似然估计:
最大化这个总和,等价于最大化训


函数/损失/学习/优化/机器/分布/算法/经验/替代/样本/ 函数/损失/学习/优化/机器/分布/算法/经验/替代/样本/
-1 条回复
登录 后才能参与评论
-->