强化学习与运筹学

作者: 小鬼
发布时间: 2025-04-10 03:43:54 (4天前)
转自：

             作业调度或出租车共享问题。

由于强化学习旨在以与操作类似的方式最小化/最大化某个成本/奖励功能

研究
</跨度>
试图优化两个？我真的没见过太多

研究
</跨度>
在RL上就上述问题做了但我可能弄错了。

如果有人有任何见解，他们将非常感谢!!
锟斤拷

3 条回复

0#
回复此人
日耀九洲 | 2019-08-31 10-32
巴勃罗提供了很好的解释。我的研究实际上是强化学习与模型预测控制。 MPC是一种基于轨迹优化的控制方法。强化学习只是一种数据驱动的优化算法，可用于上述示例。这是一篇论文

旅行推销员问题

使用RL。

最大的区别是这些：

的
强化学习方法
</强>

不需要模型，而是需要在环境中尝试不同操作并从中学习的“游乐场”（即数据驱动方法）

由于状态与动作的非线性映射，不能保证复杂问题的最优性。在多输入多输出问题中，RL使用非线性函数逼近器来解决任务。但是在使用它们的那一刻就没有保证收敛

非常适用于难以或无法推导出模型的问题。

极难训练，但便宜的在线计算

固有的适应性。如果环境条件发生变化，RL通常可以通过学习新环境来适应。

最糟糕的是，RL做出的决定是无法解释的。高级RL算法由多个神经网络组成，因此，如果我们的RL汽车驾驶员在悬崖上行驶，几乎不可能确定为什么它会做这样的事情。

的
优化方法
</强>

性能取决于模型。如果模型不好，优化将是可怕的。

由于性能基于模型，因此识别“完美”模型非常昂贵。在能源工业中，这种用于一个工厂的模型花费数百万，特别是因为操作条件随时间而变化。

保证最优。已发表的许多论文都证明了这些方法可以保证稳健性，可行性和稳定性。

易于理解。使用优化方法的控制和决策很容易解释，因为您可以进入模型并计算执行某个操作的原因。在RL情况下，这通常是神经网络，完全是黑盒子。因此，对于安全敏感问题，RL目前很少使用。

非常昂贵的在线计算取决于预测范围，因为在每个时间步，我们必须优化给定当前状态的轨迹。
编辑
1#
回复此人
撩心 | 2019-08-31 10-32

这是我的两分钱。我认为虽然两个近似都有一个共同的目标（最优决策），但它们的基本工作原理是不同的。实质上，强化学习是一种数据驱动的方法，其中优化过程通过代理 - 环境交互（即数据）来实现。另一方面，优化研究使用其他方法，这些方法需要更深入地了解问题和/或施加更多假设。

存在许多问题，尤其是学术问题或玩具问题，其中可以应用RL和OR的近似值。在现实世界的应用程序中，我想如果你能满足OR所要求的所有假设，那么RL将无法取得更好的结果。不幸的是，情况并非总是如此，因此RL在这种情况下更有用。

但是请注意，存在一些方法，其中不清楚RL和OR之间的区别。

编辑

登录后才能参与评论