巴勃罗提供了很好的解释。我的研究实际上是强化学习与模型预测控制。 MPC是一种基于轨迹优化的控制方法。强化学习只是一种数据驱动的优化算法,可用于上述示例。这是一篇论文
旅行推销员问题
使用RL。
最大的区别是这些:
的
强化学习方法
</强>
不需要模型,而是需要在环境中尝试不同操作并从中学习的“游乐场”(即数据驱动方法)
由于状态与动作的非线性映射,不能保证复杂问题的最优性。在多输入多输出问题中,RL使用非线性函数逼近器来解决任务。但是在使用它们的那一刻就没有保证收敛
非常适用于难以或无法推导出模型的问题。
极难训练,但便宜的在线计算
固有的适应性。如果环境条件发生变化,RL通常可以通过学习新环境来适应。
最糟糕的是,RL做出的决定是无法解释的。高级RL算法由多个神经网络组成,因此,如果我们的RL汽车驾驶员在悬崖上行驶,几乎不可能确定为什么它会做这样的事情。
的
优化方法
</强>
性能取决于模型。如果模型不好,优化将是可怕的。
由于性能基于模型,因此识别“完美”模型非常昂贵。在能源工业中,这种用于一个工厂的模型花费数百万,特别是因为操作条件随时间而变化。
保证最优。已发表的许多论文都证明了这些方法可以保证稳健性,可行性和稳定性。
易于理解。使用优化方法的控制和决策很容易解释,因为您可以进入模型并计算执行某个操作的原因。在RL情况下,这通常是神经网络,完全是黑盒子。因此,对于安全敏感问题,RL目前很少使用。
非常昂贵的在线计算取决于预测范围,因为在每个时间步,我们必须优化给定当前状态的轨迹。