什么是强化机器学习?


红蜻蜓
2025-04-08 06:55:09 (13小时前)
  1. 我知道有人监督和无监督


学习
</跨度>
但仍然没有得到如何强化


</跨度>

学习
</跨度>
作品。

有人可以用适当的例子来帮助我吗?并使用它如何工作的案例?

3 条回复
  1. 0# 至此 | 2019-08-31 10-32



    增强机器学习是指机器从经验中学习,反馈是“好”或“坏”。



    一个典型的例子是培训游戏代理商。您首先开始使用您拥有的数据(受监督)培训您的代理,当它耗尽时,开始培训几个代理并让彼此竞争。获胜的人正在“加强”,继续下去。



    这是过去的“伎俩”之一

    训练AlphaGo

    ,(以前在

    TD-金门






    因此,政策网络
    通过使用他们的结果让他们互相对抗来改善
    这些游戏作为训练信号。这称为强化
    学习,甚至深度强化学习(因为网络
    受过训练很深。



  2. 1# trpnest | 2019-08-31 10-32



    你提到了有监督和无监督的学习。
    这3个略有不同。





    • 监督学习:每个元组都有标签。





    • 无监督学习:您没有元组标签,但想要找到输入之间的关系




    • 强化倾向:稀疏条目的标签很少。那个标签是奖励。



    强化学习是一个人如何了解新情况的过程。它需要任何随机动作,观察环境的行为并相应地学习。



    什么是奖励。?



    奖励是来自环境的积极或消极反馈。行动负责其未来的所有奖励。因此,它需要采取那些可以在未来获得最积极回报的行动。



    这可以通过Q学习算法来实现。我请你检查一下这个话题。



    我使用强化算法训练pacman。我希望你知道这场比赛。我们的目标是采取行动,不应该击中鬼魂,也应该能够从地图中获取所有点数。它经过多次迭代和成千上万的游戏后自我训练。我也用它来训练一辆车在特定赛道上开车!



    强化学习可用于训练AI学习任何游戏。虽然更复杂的游戏需要神经网络,这就是所谓的深度学习。


登录 后才能参与评论