并行超算使用教程(GPU)
文件传输
使用 快传
功能,可以图形化操作,包括文件上传、下载,选中文件后右键可以查看、修改文件。
请将代码、数据、脚本等所有文件都放在 run
目录下 !
SSH 任务提交和管理
使用 SSH
功能,提交和管理任务。
任务提交
提交任务命令: sbatch [(可选)参数列表] shell脚本文件名 [(可选)脚本参数列表]
1 | 常用参数: |
任务默认配置:1卡,6核,60GB内存
使用默认配置提交任务(推荐):
1
sbatch --gpus=1 ./train.sh
输出的日志
out
文件会根据整个系统提交的任务数自动命名,默认保存在shell脚本的相同目录下。使用自定义参数提交任务:
1
sbatch --job-name=train_mynet --gpus=2 --cpus-per-gpu=8 --mem-per-gpu=32 --chdir=aaa/bbb/ccc --error=train_err.log --output=train.log train.sh
一个作业规模支持1~8卡,可提交多个作业同时运行计算,作业之间互不影响!
手动创建Python环境
1 | # 加载 miniconda |
Python训练任务的脚本编写示例
使用 vim
编写任务 shell
脚本,或者上传也行:
1 | vim train.sh |
train.sh
脚本文件内容:
1 |
|
任务管理命令
查看作业和资源占用
1 | parajobs |
取消作业
1 | scancel 作业id |
作业 id
用上面的 parajobs
命令查看
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 ShadowMaster's Blog!
评论