使用大批量和少量GPU培训MXNet

作者: Autistic
发布时间: 2025-02-06 12:28:47 (24天前)
转自：

2 条回复

0#
回复此人
敢嫁就敢娶 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 使用更简化的方法（内存方式）编辑此答案。您必须配置每个参数以累积渐变，运行4个前向传递，向后运行，然后手动将渐变归零。 </p> <P> 按照 <a href="https://discuss.mxnet.io/t/aggregate-gradients-manually-over-n-batches/504/2" rel="nofollow noreferrer"> https://discuss.mxnet.io/t/aggregate-gradients-manually-over-n-batches/504/2 </A> </p> <P> “这对Gluon非常简单。您需要将网络参数实例中的grad_req设置为'add'，并在每个Trainer.step（）之后使用zero_grad（）手动将渐变设置为零（请参阅 <a href="https://mxnet.incubator.apache.org/api/python/gluon/gluon.html#mxnet.gluon.Parameter.grad_req" rel="nofollow noreferrer"> 这里 </A> ）。要将grad_req设置为'add'： </p> <pre> <code> for p in net.collect_params().values(): p.grad_req = 'add' </code> </pre> <P> “并且在调用Trainer.step（）之后，同样在每个参数上调用zero_grad（）。记得相应地修改trainer.step（）的batch_size参数。” </p> <P> Vishaal </p> </DIV>

编辑

登录后才能参与评论