新建任务
名称
sco acp jobs create - 创建一个新的训练任务
说明
sco acp jobs create \
--workspace-name=WORKSPACE_NAME \
--aec2-name=AEC2_NAME \
--job-name=JOB_NAME \
--container-image-url=IMAGE_URI \
--training-framework=FRAMEWORK \
--worker-spec=WORKER_SPEC \
[--worker-nodes=WORKER_NUM] \
[--priority=NORMAL|HIGH|HIGHEST] \
[--command='COMMAND;...'] \
[--storage-mount=VOLUME_ID:MOUNT_PATH[,VOLUME_ID/SUB_DIR:MOUNT_PATH...]] \
[--enable-fault-tolerance] \
[--enable-anomaly-detection] \
[--retry-times=RETRY_TIMES] \
[--env=KEY:VALUE[,KEY:VALUE...]] \
[--quota-type=reserved|spot] \
[--wait] \
[--vpc-id=VPC_ID --az=AZ]
描述
创建一个新的训练任务。
命令行标志
必填参数
--workspace-name: 训练任务所属 workspace。--aec2-name: 训练任务所属 AEC2;公共集群填public。--job-name: 训练任务显示名称(DisplayName)。--container-image-url: 容器镜像地址。--training-framework: 训练框架,支持pytorch、pt、tensorflow、tf、senseparrots、mpi。--worker-spec: 训练规格(支持多个,逗号分隔)。
可选参数
--name: 训练任务资源名(Name,不传由后端生成)。--worker-nodes: 节点数量,默认1,必须>= 1。--priority: 调度优先级,默认NORMAL。--command: 启动命令,默认sleep inf。--storage-mount: 卷挂载,格式为VOLUME_ID:MOUNT_PATH或VOLUME_ID/SUB_DIR:MOUNT_PATH,多项用逗号分隔。--enable-fault-tolerance: 开启容错能力(默认关闭)。--enable-anomaly-detection: 开启异常检测(默认关闭)。--retry-times: 重试次数,默认0。--env: 环境变量,格式KEY:VALUE,多项用逗号分隔。--wait: 资源暂时不足时,是否允许排队等待配额(默认关闭)。--quota-type:reserved或spot,默认reserved。--vpc-id: 当--aec2-name=public时必填(UUID 格式)。--az: 当--aec2-name=public时必填。
示例
sco acp jobs create \
--workspace-name=my-workspace \
--aec2-name=my-aec2 \
--job-name=test \
--container-image-url='registry.example.com/example/image:latest' \
--training-framework=pytorch \
--worker-spec='1XA100-80GB' \
--worker-nodes=2 \
--priority=HIGH \
--command='sleep 60' \
--storage-mount='test85cd-560e-7a82-9201-8faf94ad8f6x/datasets:/data' \
--env='NCCL_DEBUG:INFO,OMP_NUM_THREADS:4'