新建任务 | 大装置帮助中心
跳到主要内容

新建任务

名称

sco acp jobs create - 创建一个新的训练任务

说明

sco acp jobs create \
--workspace-name=WORKSPACE_NAME \
--aec2-name=AEC2_NAME \
--job-name=JOB_NAME \
--container-image-url=IMAGE_URI \
--training-framework=FRAMEWORK \
--worker-spec=WORKER_SPEC \
[--worker-nodes=WORKER_NUM] \
[--priority=NORMAL|HIGH|HIGHEST] \
[--command='COMMAND;...'] \
[--storage-mount=VOLUME_ID:MOUNT_PATH[,VOLUME_ID/SUB_DIR:MOUNT_PATH...]] \
[--enable-fault-tolerance] \
[--enable-anomaly-detection] \
[--retry-times=RETRY_TIMES] \
[--env=KEY:VALUE[,KEY:VALUE...]] \
[--quota-type=reserved|spot] \
[--wait] \
[--vpc-id=VPC_ID --az=AZ]

描述

创建一个新的训练任务。

命令行标志

必填参数

  • --workspace-name: 训练任务所属 workspace。
  • --aec2-name: 训练任务所属 AEC2;公共集群填 public
  • --job-name: 训练任务显示名称(DisplayName)。
  • --container-image-url: 容器镜像地址。
  • --training-framework: 训练框架,支持 pytorchpttensorflowtfsenseparrotsmpi
  • --worker-spec: 训练规格(支持多个,逗号分隔)。

可选参数

  • --name: 训练任务资源名(Name,不传由后端生成)。
  • --worker-nodes: 节点数量,默认 1,必须 >= 1
  • --priority: 调度优先级,默认 NORMAL
  • --command: 启动命令,默认 sleep inf
  • --storage-mount: 卷挂载,格式为 VOLUME_ID:MOUNT_PATHVOLUME_ID/SUB_DIR:MOUNT_PATH,多项用逗号分隔。
  • --enable-fault-tolerance: 开启容错能力(默认关闭)。
  • --enable-anomaly-detection: 开启异常检测(默认关闭)。
  • --retry-times: 重试次数,默认 0
  • --env: 环境变量,格式 KEY:VALUE,多项用逗号分隔。
  • --wait: 资源暂时不足时,是否允许排队等待配额(默认关闭)。
  • --quota-type: reservedspot,默认 reserved
  • --vpc-id: 当 --aec2-name=public 时必填(UUID 格式)。
  • --az: 当 --aec2-name=public 时必填。

示例

sco acp jobs create \
--workspace-name=my-workspace \
--aec2-name=my-aec2 \
--job-name=test \
--container-image-url='registry.example.com/example/image:latest' \
--training-framework=pytorch \
--worker-spec='1XA100-80GB' \
--worker-nodes=2 \
--priority=HIGH \
--command='sleep 60' \
--storage-mount='test85cd-560e-7a82-9201-8faf94ad8f6x/datasets:/data' \
--env='NCCL_DEBUG:INFO,OMP_NUM_THREADS:4'