什么是HPC中的临时空间/文件系统


陆离
2025-03-10 01:03:48 (1天前)
  1. 我正在研究HPC应用程序和并行文件系统。我遇到了这个词



</跨度>
空间和


</跨度>
文件系统。

我无法想象这里的位置


</跨度>
空间存在。它是在计算 节点上作为挂载的文件系统/


</跨度>
或在主存储空间。

它的内容是什么?




</跨度>
空间独立于每个计算节点,或者两个或多个节点可以共享一个


</跨度>
空间

3 条回复
  1. 0# 清 月 | 2019-08-31 10-32



    有许多不同的方法可以考虑或部署临时空间或临时文件系统。



    假设你有一个linux节点集群,这些节点都有一个硬盘。您可以想象每个节点本地的/ scratch空间。由于操作系统映像将是比较小的,与时下人们不能购买任何东西比TB的驱动器时,你最终接近存储TB级的节点使用。



    你会用这个节点本地存储做什么?哦,很多事情。可扩展的检查点 - 重启。本地核外业务。



    当我第一次开始使用集群时,将所有未使用的空间绑定到并行文件系统似乎是个好主意。 PVFS非常适合这一目的。



    这让我可以看到所有节点都可以使用/刮擦并行文件系统。这有一个技术组件(站点部署哪个并行文件系统?)但是还有一个策略组件:保留此文件系统上的数据多长时间?它备份了吗? / scratch通常意味着文件没有备份,实际上在一段时间未被访问后被清除(通常是两周)


  2. 1# 易米烊光 | 2019-08-31 10-32



    这完全取决于群集的设置方式和用户需求。当您获得对群集的访问权限时,您还应该获得一些有关如何使用它的信息,这些信息应该回答您的大部分问题。



    在其中一个集群上,我使用NFS进行长期存储,一些Lustre空间可用于作业暂存空间。所有节点都可以看到NFS和Lustre。每个节点在节点上也有一些只有该节点可以看到的临时空间。



    如果您希望您的作业并行处理123.txt,您可以将123.txt复制到共享临时空间(Lustre),也可以将其复制到作业文件中的每个节点临时空间。




    1. for i in cat $PBS_NODEFILE | sort -u ; do scp 123.txt $i:/scratch ; done

    2. </code>


    每个节点都有一个副本后,您就可以运行您的工作。作业完成后,您需要将结果复制到持久存储,因为群集通常会运行脚本来清理临时空间。


登录 后才能参与评论