新建任务
名称
sco acp jobs create - 创建一个新的训练任务
说明
sco acp jobs create --workspace-name=*WORKSPACE_NAME* --aec2-name=*AEC2_NAME* --job-name=*JOB_NAME* [--priority=*PRIORITY*] [--storage-mount=[*VOULUME_ID*:*PATH*,...]] --container-image-url='*IMAGE_URI*' --training-framework=*TRAINING_FRAMEWORK* [--enable-fault-tolerance] [--enable-anomaly-detection] [--retry-times=*RETRY_TIMES*] [--env=[*ENV_KEY*:*ENV_VALUE*,...]] --worker-nodes=*WORKER_NUM* --worker-spec=*WORKER_SPEC* --command='*COMMAND*;...'
描述
创建一个新的训练任务。
命令行标志
必要参数:
--workspace-name: 指定训练任务的workspace name。--aec2-name: 指定训练任务在所选workspace下的aec2 name,公共集群创建训练任务设置为public。--job-name: 训练任务显示名称。--container-image-url: 指定训练任务的镜像。--training-framework: 指定训练任务的训练框架:pytorch、tensorflow、tensorflow、senseparrots或mpi。--worker-nodes: 指定训练任务的节点数量。--worker-spec: 指定训练任务在所选aec2下的的规格,如有多个规格,以','分隔。--command: 指定训练任务的运行命令,如有多行命令,以';'分隔。
可选参数:
--priority: 指定训练任务的调度优先级:NORMAL、HIGH、HIGHEST,默认NORMAL。--storage-mount: 指定训练任务的挂载,需要指定afs的volume id和容器内的路径。格式:volume_id1:path1,volume_id2:path2。enable-fault-tolerance: 是否开启容错,主要容错手段有:重试、任务启动环境检查等。--enable-anomaly-detection: 开启异常检测功能。如要启用此功能,需要启用'——enable-fault-tolerance'。--retry-times: 当指定'——enable-fault-tolerance'时,设置的重试次数。--az: 当指定'--aec2-name'为“public”时必须设置,创建训练任务所属可用区。--vpc-id: 当指定'--aec2-name'为“public”时必须设置,创建训练任务所属VPC ID。--quota-type: 指定job类型:spot、reserved, 默认reserved。--follow: 是否开启实时日志,如开启,创建任务成功后会查看job日志。--name: 训练任务名称,不指定时由后端自动生成。--env: 环境变量,以','分隔,格式:key1:value1,key2:value2。
示例
创建 workspace name fc05f98b-2196-4d41-9ea0-c85232e1defa aec2 name d4d8892f-933f-4512-a045-5334d186390b 下的训练任务:
sco acp jobs create --workspace-name=fc05f98b-2196-4d41-9ea0-c85232e1defa --aec2-name=d4d8892f-933f-4512-a045-5334d186390b --job-name=test --priority=HIGH --container-image-url='registry.sensetime.com/lepton/test:lastest' --training-framework=pytorch --worker-nodes=2 --worker-spec='N2lS.Ie.I60.1' --command='sleep inf'