我希望并行运行经过训练的CNN的每一层以减少前向传播期间的计算时间(基本上我想运行CNN用于涉及摄像机的实时应用,而不需要...
使用Tensorflow,您可以指定“设备放置”,因此对于图表中的每个操作或操作组,您可以说明在哪个GPU上运行它,例如,如果您有多个GPU。看到 本教程 有关如何在GPU上进行操作的示例代码。
不知道TF。
关于caffe - 这听起来像个坏主意。在层之间放置队列和同步机制只会降低你的速度(特别是如果你在GPU上运行并通过CPU结构同步)。 Caffe设计用于顺序执行前进传球并快速完成。为什么你期望并行性能帮助你更快地运行它?