仅供参考:我正在尝试将重新学习机制应用于分类任务。我知道做cus深度学习在任务中可以超越rl是没用的。无论如何,在研究目的我…
action 是由argmax功能产生的,这是不可区分的。相反,你想要在奖励和奖励之间取得损失 的 责任概率 强> 采取的行动。
action
通常,为再融合学习中的政策选择的“损失”就是所谓的 得分功能 :
哪个是行动的责任概率日志的产物 a 花了很多时间获得的奖励。
a