我们有一簇机器,每个机器都有4个GPU。每个工作都应该能够使用1-4个GPU。这里有个要点:我希望SGE告诉每个作业应该使用哪个 GPU。与CPU不同的是,如果一次只有一个进程访问GPU,则GPU的工作效果最佳。所以我想: Job #1 GPU: 0, 1, 3 Job #2 GPU: 2 Job #4 wait until 1-4 GPUs are avaliable 我遇到的问题是,SGE可以让我在每个节点上创建一个具有4个单元的GPU资源,但是它不会明确告诉作业要使用哪个GPU(仅获得1、3或随你)。
Job #1 GPU: 0, 1, 3 Job #2 GPU: 2 Job #4 wait until 1-4 GPUs are avaliable
我曾考虑创建4个资源(gpu0, gpu1, gpu2, gpu3),但是不确定该-l标志是否采用全局模式,并且无法弄清楚SGE如何告诉作业它接收了哪些gpu资源。有任何想法吗?