巴勃罗提供了很好的解释。我的研究实际上是强化学习与模型预测控制。 MPC是一种基于轨迹优化的控制方法。强化学习只是一种数据驱动的优化算法,可用于上述示例。这是一篇论文 旅行推销员问题 使用RL。
最大的区别是这些:
的 强化学习方法 强>
的 优化方法 强>
性能取决于模型。如果模型不好,优化将是可怕的。
由于性能基于模型,因此识别“完美”模型非常昂贵。在能源工业中,这种用于一个工厂的模型花费数百万,特别是因为操作条件随时间而变化。
保证最优。已发表的许多论文都证明了这些方法可以保证稳健性,可行性和稳定性。
易于理解。使用优化方法的控制和决策很容易解释,因为您可以进入模型并计算执行某个操作的原因。在RL情况下,这通常是神经网络,完全是黑盒子。因此,对于安全敏感问题,RL目前很少使用。
非常昂贵的在线计算取决于预测范围,因为在每个时间步,我们必须优化给定当前状态的轨迹。
这是我的两分钱。我认为虽然两个近似都有一个共同的目标(最优决策),但它们的基本工作原理是不同的。实质上,强化学习是一种数据驱动的方法,其中优化过程通过代理 - 环境交互(即数据)来实现。另一方面,优化研究使用其他方法,这些方法需要更深入地了解问题和/或施加更多假设。
存在许多问题,尤其是学术问题或玩具问题,其中可以应用RL和OR的近似值。在现实世界的应用程序中,我想如果你能满足OR所要求的所有假设,那么RL将无法取得更好的结果。不幸的是,情况并非总是如此,因此RL在这种情况下更有用。
但是请注意,存在一些方法,其中不清楚RL和OR之间的区别。