有许多不同的方法可以考虑或部署临时空间或临时文件系统。
假设你有一个linux节点集群,这些节点都有一个硬盘。您可以想象每个节点本地的/ scratch空间。由于操作系统映像将是比较小的,与时下人们不能购买任何东西比TB的驱动器时,你最终接近存储TB级的节点使用。
你会用这个节点本地存储做什么?哦,很多事情。可扩展的检查点 - 重启。本地核外业务。
当我第一次开始使用集群时,将所有未使用的空间绑定到并行文件系统似乎是个好主意。 PVFS非常适合这一目的。
这让我可以看到所有节点都可以使用/刮擦并行文件系统。这有一个技术组件(站点部署哪个并行文件系统?)但是还有一个策略组件:保留此文件系统上的数据多长时间?它备份了吗? / scratch通常意味着文件没有备份,实际上在一段时间未被访问后被清除(通常是两周)
这完全取决于群集的设置方式和用户需求。当您获得对群集的访问权限时,您还应该获得一些有关如何使用它的信息,这些信息应该回答您的大部分问题。
在其中一个集群上,我使用NFS进行长期存储,一些Lustre空间可用于作业暂存空间。所有节点都可以看到NFS和Lustre。每个节点在节点上也有一些只有该节点可以看到的临时空间。
如果您希望您的作业并行处理123.txt,您可以将123.txt复制到共享临时空间(Lustre),也可以将其复制到作业文件中的每个节点临时空间。
for i in `cat $PBS_NODEFILE | sort -u ` ; do scp 123.txt $i:/scratch ; done
每个节点都有一个副本后,您就可以运行您的工作。作业完成后,您需要将结果复制到持久存储,因为群集通常会运行脚本来清理临时空间。