我想了解Q-Learning,我目前的算法操作如下:
1.维护查找表,将状态映射到有关其立即奖励和效用的信息……
有大约10?跳棋中的不同状态,你需要为每次更新播放整个游戏,所以这将是一个非常非常长的时间,直到你以这种方式获得有意义的动作值。通常,您需要一个简化的状态表示,如神经网络,使用强化学习来解决这类问题。
另外,有几点需要注意: