增强机器学习是指机器从经验中学习,反馈是“好”或“坏”。
一个典型的例子是培训游戏代理商。您首先开始使用您拥有的数据(受监督)培训您的代理,当它耗尽时,开始培训几个代理并让彼此竞争。获胜的人正在“加强”,继续下去。
这是过去的“伎俩”之一 训练AlphaGo ,(以前在 TD-金门 )
... 因此,政策网络 通过使用他们的结果让他们互相对抗来改善 这些游戏作为训练信号。这称为强化 学习,甚至深度强化学习(因为网络 受过训练很深。
你提到了有监督和无监督的学习。 这3个略有不同。
监督学习:每个元组都有标签。
无监督学习:您没有元组标签,但想要找到输入之间的关系
强化学习是一个人如何了解新情况的过程。它需要任何随机动作,观察环境的行为并相应地学习。
什么是奖励。?
奖励是来自环境的积极或消极反馈。行动负责其未来的所有奖励。因此,它需要采取那些可以在未来获得最积极回报的行动。
这可以通过Q学习算法来实现。我请你检查一下这个话题。
我使用强化算法训练pacman。我希望你知道这场比赛。我们的目标是采取行动,不应该击中鬼魂,也应该能够从地图中获取所有点数。它经过多次迭代和成千上万的游戏后自我训练。我也用它来训练一辆车在特定赛道上开车!
强化学习可用于训练AI学习任何游戏。虽然更复杂的游戏需要神经网络,这就是所谓的深度学习。