我试图将3个矩阵相乘,但是CUDA内存耗尽了。
A = np.random.randn(3000,100)B = np.random.randn(100,…
乘以矩阵,您的输出大小将为3,000 x 3,000,000矩阵!尽管如此 A 和 B 相对较小的输出 R 是巨大的:9 的 G 强> 元素。而且,我怀疑 dtype 你的矩阵是 float64 并不是 float32 (因为你使用numpy来初始化它们)。因此,每个9G元素 R_gpu 需要8个字节;带你到至少72的大小 的 GB 强> GPU内存仅适用于 R_gpu 。我怀疑中间结果和其他一些东西占用了你的GPU内存。
A
B
R
dtype
float64
float32
R_gpu