文件传输

使用 快传 功能,可以图形化操作,包括文件上传、下载,选中文件后右键可以查看、修改文件。

请将代码、数据、脚本等所有文件都放在 run 目录下 !

SSH 任务提交和管理

使用 SSH 功能,提交和管理任务。

任务提交

提交任务命令: sbatch [(可选)参数列表] shell脚本文件名 [(可选)脚本参数列表]

1
2
3
4
5
6
7
8
常用参数:
--job-name=jobname 给任务命名
--gpus=n 使用的GPU数量
--cpus-per-gpu=n 每块GPU分配的CPU核数
--mem-per-gpu=n 每块GPU分配的内存大小
--chdir=directory 设置Shell脚本所在目录
--error=err Shell脚本错误的保存文件
--output=out Shell脚本输出的保存文件

任务默认配置:1卡,6核,60GB内存

  • 使用默认配置提交任务(推荐):

    1
    sbatch --gpus=1 ./train.sh

    输出的日志 out 文件会根据整个系统提交的任务数自动命名,默认保存在shell脚本的相同目录下。

  • 使用自定义参数提交任务:

    1
    sbatch --job-name=train_mynet --gpus=2 --cpus-per-gpu=8 --mem-per-gpu=32 --chdir=aaa/bbb/ccc --error=train_err.log --output=train.log train.sh

一个作业规模支持1~8卡,可提交多个作业同时运行计算,作业之间互不影响!

手动创建Python环境

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 加载 miniconda
module load miniforge

# 初始化conda
conda init

# 创建新的Conda环境
conda create -n myenv python=3.8 -y

# 激活Conda环境
conda activate myenv

# 安装Python脚本所需的依赖
pip install numpy
pip install -r requirements.txt

Python训练任务的脚本编写示例

使用 vim 编写任务 shell 脚本,或者上传也行:

1
vim train.sh

train.sh 脚本文件内容:

1
2
3
4
5
6
7
8
9
10
11
12
13
#!/bin/bash

# 加载 miniconda
module load miniforge

# 激活Conda环境,要用 source 命令!
source activate myenv

# 切换到Python脚本目录
cd /HOME/scz0s22/run/StyleGAN_PyTorch

# 运行Python脚本,注意py文件的路径
python train.py

任务管理命令

查看作业和资源占用

1
parajobs

取消作业

1
scancel 作业id

作业 id 用上面的 parajobs 命令查看