这是否是Checkers Q-Learning的正确实现？

作者: ⑩Ⅵ嵗Ｄ夨憶
发布时间: 2025-03-09 11:02:20 (22小时前)
转自：

2 条回复

0#
回复此人
=_= | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 有大约10？跳棋中的不同状态，你需要为每次更新播放整个游戏，所以这将是一个非常非常长的时间，直到你以这种方式获得有意义的动作值。通常，您需要一个简化的状态表示，如神经网络，使用强化学习来解决这类问题。 </p> <P> 另外，有几点需要注意： </p> <UL> <LI> 理想情况下，您应该为每场比赛更新1个值，因为单个游戏中的移动是高度相关的。 </LI> <LI> 您应该将操作值初始化为小的随机值，以避免小Q更新的大型策略更改。 </LI> </UL> </DIV>

编辑

登录后才能参与评论