DQN to play paddle-ball game.
本项目基于使用PARL框架实现算法解决一星环境任务Orbit中的Paddle-Ball游戏。
# or try: pip install -r requirements.txt
pip install paddlepaddle==1.6.3
pip install parl==1.3.1
本项目训练策略分三步进行。
# 策略1 大学习率大数据量大探索率
BATCH_SIZE = 32*5 # 每次给agent learn的数据数量,从replay memory随机里sample一批数据出来
LEARNING_RATE = 0.001*5 # 学习率
EPSILON = 1 # 探索率
EPSILON_DEC = .995
# 策略2 小学习率大衰减因子
BATCH_SIZE = 32 # 每次给agent learn的数据数量,从replay memory随机里sample一批数据出来
LEARNING_RATE = 0.001 # 学习率
GAMMA = 0.99 # reward 的衰减因子,一般取 0.9 到 0.999 不等
# 策略3 小探索率大衰减因子(改了下发球逻辑,现在发球方向随机)
GAMMA = 0.999 # reward 的衰减因子,一般取 0.9 到 0.999 不等
EPSILON = 0.5 # 探索率
EPSILON_DEC = .995
效果说明:
图1,15次reward均值0.33:
图2,15次reward均值7.06:
代码运行如下:
# train
python .\train.py
# test
python .\test.py