增强机器学习是指机器从经验中学习,反馈是“好”或“坏”。
一个典型的例子是培训游戏代理商。您首先开始使用您拥有的数据(受监督)培训您的代理,当它耗尽时,开始培训几个代理并让彼此竞争。获胜的人正在“加强”,继续下去。
这是过去的“伎俩”之一
训练AlphaGo
,(以前在
TD-金门
)
…
因此,政策网络
通过使用他们的结果让他们互相对抗来改善
这些游戏作为训练信号。这称为强化
学习,甚至深度强化学习(因为网络
受过训练很深。