强化学习与运筹学


小鬼
2025-04-10 03:43:54 (4天前)
  1. 作业调度或出租车共享问题。

由于强化学习旨在以与操作类似的方式最小化/最大化某个成本/奖励功能

研究
</跨度>
试图优化两个?我真的没见过太多

研究
</跨度>
在RL上就上述问题做了但我可能弄错了。

如果有人有任何见解,他们将非常感谢!!
锟斤拷

3 条回复
  1. 0# 日耀九洲 | 2019-08-31 10-32



    巴勃罗提供了很好的解释。我的研究实际上是强化学习与模型预测控制。 MPC是一种基于轨迹优化的控制方法。强化学习只是一种数据驱动的优化算法,可用于上述示例。这是一篇论文

    旅行推销员问题

    使用RL。



    最大的区别是这些:




    强化学习方法
    </强>




    • 不需要模型,而是需要在环境中尝试不同操作并从中学习的“游乐场”(即数据驱动方法)


    • 由于状态与动作的非线性映射,不能保证复杂问题的最优性。在多输入多输出问题中,RL使用非线性函数逼近器来解决任务。但是在使用它们的那一刻就没有保证收敛


    • 非常适用于难以或无法推导出模型的问题。


    • 极难训练,但便宜的在线计算


    • 固有的适应性。如果环境条件发生变化,RL通常可以通过学习新环境来适应。


    • 最糟糕的是,RL做出的决定是无法解释的。高级RL算法由多个神经网络组成,因此,如果我们的RL汽车驾驶员在悬崖上行驶,几乎不可能确定为什么它会做这样的事情。




    优化方法
    </强>





    • 性能取决于模型。如果模型不好,优化将是可怕的。





    • 由于性能基于模型,因此识别“完美”模型非常昂贵。在能源工业中,这种用于一个工厂的模型花费数百万,特别是因为操作条件随时间而变化。





    • 保证最优。已发表的许多论文都证明了这些方法可以保证稳健性,可行性和稳定性。





    • 易于理解。使用优化方法的控制和决策很容易解释,因为您可以进入模型并计算执行某个操作的原因。在RL情况下,这通常是神经网络,完全是黑盒子。因此,对于安全敏感问题,RL目前很少使用。





    • 非常昂贵的在线计算取决于预测范围,因为在每个时间步,我们必须优化给定当前状态的轨迹。




  2. 1# 撩心 | 2019-08-31 10-32



    这是我的两分钱。我认为虽然两个近似都有一个共同的目标(最优决策),但它们的基本工作原理是不同的。实质上,强化学习是一种数据驱动的方法,其中优化过程通过代理 - 环境交互(即数据)来实现。另一方面,优化研究使用其他方法,这些方法需要更深入地了解问题和/或施加更多假设。



    存在许多问题,尤其是学术问题或玩具问题,其中可以应用RL和OR的近似值。在现实世界的应用程序中,我想如果你能满足OR所要求的所有假设,那么RL将无法取得更好的结果。不幸的是,情况并非总是如此,因此RL在这种情况下更有用。



    但是请注意,存在一些方法,其中不清楚RL和OR之间的区别。


登录 后才能参与评论