张量的元素0不需要grad，也没有grad_fn

作者: 你瞎啊！撞我心了
发布时间: 2024-10-16 05:41:30 (29天前)
转自：

2 条回复

0#
回复此人
我头上有犄角 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> <code> action </code> 是由argmax功能产生的，这是不可区分的。相反，你想要在奖励和奖励之间取得损失的<strong> 责任概率 </强> 采取的行动。 </p> <P> 通常，为再融合学习中的政策选择的“损失”就是所谓的 <a href="https://pytorch.org/docs/stable/distributions.html#score-function" rel="nofollow noreferrer"> 得分功能 </A> ： <img src =“https://i.imgur.com/VvdILjO.png”alt =“link”/> </p> <P> 哪个是行动的责任概率日志的产物 <code> a </code> 花了很多时间获得的奖励。 </p> </DIV>

编辑

登录后才能参与评论