强化学习是指面向完成的算法,它学习如何获得协调复合目标(目标)或在许多步骤中沿特定维度最大化。强化学习背后的基本主题是,一个创造性的角色将通过与环境的互动和为执行行动获得奖励来从环境中学习。
深度学习使用多层非线性处理单元来提取特征和变换
深度强化学习方法引入深度神经网络来解决强化学习问题,因此它们被命名为“深层次”。
强化学习是指教授代理人使用奖励来导航环境。 Q学习是主要的强化学习方法之一。
深度学习使用神经网络来实现某个目标,例如识别图像中的字母和单词。
深度强化学习是两者的结合,以Q学习为基础。但是,这不是使用实际的状态 - 值对,而是经常用于状态 - 动作空间太大以至于Q学习需要很长时间才能收敛的环境中。通过使用神经网络,我们可以找到相似的其他状态 - 动作对。这种“函数逼近”允许在具有非常大的状态动作空间的环境中进行有效学习。