什么是强化机器学习？

作者: 红蜻蜓
发布时间: 2025-04-08 06:55:09 (13小时前)
转自：

            我知道有人监督和无监督

学习
</跨度>
但仍然没有得到如何强化

机
</跨度>

学习
</跨度>
作品。

有人可以用适当的例子来帮助我吗？并使用它如何工作的案例？
鈥

3 条回复

0#
回复此人
至此 | 2019-08-31 10-32

增强机器学习是指机器从经验中学习，反馈是“好”或“坏”。

一个典型的例子是培训游戏代理商。您首先开始使用您拥有的数据（受监督）培训您的代理，当它耗尽时，开始培训几个代理并让彼此竞争。获胜的人正在“加强”，继续下去。

这是过去的“伎俩”之一

训练AlphaGo

，（以前在

TD-金门

）

…
因此，政策网络
通过使用他们的结果让他们互相对抗来改善
这些游戏作为训练信号。这称为强化
学习，甚至深度强化学习（因为网络
受过训练很深。

编辑
1#
回复此人
trpnest | 2019-08-31 10-32
你提到了有监督和无监督的学习。
这3个略有不同。
- 监督学习：每个元组都有标签。
- 无监督学习：您没有元组标签，但想要找到输入之间的关系
- 强化倾向：稀疏条目的标签很少。那个标签是奖励。
强化学习是一个人如何了解新情况的过程。它需要任何随机动作，观察环境的行为并相应地学习。

什么是奖励。？

奖励是来自环境的积极或消极反馈。行动负责其未来的所有奖励。因此，它需要采取那些可以在未来获得最积极回报的行动。

这可以通过Q学习算法来实现。我请你检查一下这个话题。

我使用强化算法训练pacman。我希望你知道这场比赛。我们的目标是采取行动，不应该击中鬼魂，也应该能够从地图中获取所有点数。它经过多次迭代和成千上万的游戏后自我训练。我也用它来训练一辆车在特定赛道上开车！

强化学习可用于训练AI学习任何游戏。虽然更复杂的游戏需要神经网络，这就是所谓的深度学习。
编辑

登录后才能参与评论