更新任务 | 大装置帮助中心
跳到主要内容

更新任务

更新任务

Path Parameters
    subscription_name string required

    订阅

    resource_group_name string required

    资源组

    zone string required

    可用区. 工作空间可用区,一般为region+z,例如:上海的region为cn-sh-01,工作空间的可用区则为cn-sh-01z

    workspace_name string required

    工作空间名称

    training_job_name string required

    训练任务名称

Query Parameters
    update_mask field-mask

    更新字段掩码,当前仅支持更新显示名称和优先级,取值分别为"display_name"和"scheduling.priority"

Request Body required
    name string

    Possible values: non-empty and <= 63 characters

    可选,任务名称. 不填写,则由后台默认随机生成. 若填入,则需要遵循以下规范: 1、1~63个字符 2、小写字母开头,小写字母或数字结尾 3、可包含小写英文字母、数字、中划线-

    display_name string required

    Possible values: non-empty and <= 256 characters

    任务显示名称. 需遵循规范: 1、1-256个字符 2、以中文字符、英文字母或数字开头 3、由中文字符、英文字母、数字、点号"."、半角冒号":"、下划线“_"和连字符"-"组成

    ownership object

    所有权关系. 只输出,请求无需传入

    framework enum required

    Possible values: [FRAMEWORK_UNSPECIFIED, MPI, PYTORCH, PYTORCH_DDP, TENSORFLOW, TENSORFLOW_PS, SENSEPARROTS, SENSEPARROTS_DDP]

    框架类型

    roles object[] required

    角色. 当前仅支持填写单个role

  • Array [
  • name string required

    角色名. 当前只支持填写Worker

    resource_spec object[] required

    资源规格

  • Array [
  • name string required

    资源规格名称. 根据资源规格列表获取. 例: N2lS.Ie.I60.2

    replicas int32

    请求调度副本数. 当前规格所需 worker 的数量. 当前不支持手动强异构调度,暂不支持

    limits object

    资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

    property name* string
    requests object

    资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

    property name* string
  • ]
  • total_replicas int32

    总副本. 所需 worker 的数量. 选择自动弱异构调度或者单规格时,total_replicas 必传

    startup_script string required

    启动脚本

    image_path string required

    镜像真实uri path

  • ]
  • env object[]

    可选,环境变量配置,最多支持10个

  • Array [
  • key string required

    key

    value string required

    value

  • ]
  • mount object[]

    卷挂载

  • Array [
  • type enum required

    Possible values: [MOUNT_TYPE_UNSPECIFIED, PV_AFS, PV_ACS, PV_AFS_MODEL, PV_AFS_TENSORBOARD]

    挂载类型

    id string required

    卷 ID

    mount_path string required

    挂载路径

    subdir string

    卷内的子目录

    zone string

    可用区

    endpoint string

    端点

  • ]
  • tensorboard object

    TensorBoard配置

    log_path string

    开启tensorboard之后的日志路径,需要与任一存储卷挂载路径保持一致. 是否开启tensorboard,根据路径值来判断

    scheduling object

    调度

    priority enum

    Possible values: [PRIORITY_UNSPECIFIED, NORMAL, HIGH, HIGHEST]

    调度优先级, 默认为 NORMAL

    quota_type enum

    Possible values: [JOB_QUOTA_TYPE_UNSPECIFIED, RESERVED, SPOT]

    配额类型,默认为 RESERVED。 仅当集群开启闲时配额,才支持创建 SPOT 任务;

    scoring_strategy object

    评分策略

    type enum

    Possible values: [MOST_ALLOCATED, LEAST_ALLOCATED]

    评分策略类型

    resource_pool object

    资源池

    name string required

    资源名称. 例: 集群名称、预留配额名称等,需要和资源类型对应上

    zone string

    公共集群的可用区,仅当使用公共集群创建任务时,需要传入,内容要与vpc_id对应上

    vpc_id string

    vpc id. 使用公共集群创建任务时,需要指定vpc的id

    fault_tolerance object

    容错配置(任务重试与Pod失败处理)

    backoff_limit int32

    Possible values: >= -1 and <= 2147483647

    标记任务失败前的最大重试次数。-1表示无限重试

    rules object[]

    Pod 失败后的处理策略:用于定义在满足条件时如何处理失败的 Pod。 最多允许填写 20 条规则。 规则按顺序评估,一旦匹配某条规则,将忽略其后的规则; 若无规则匹配,则默认行为为重启整个任务(restartJob)

  • Array [
  • action enum

    Possible values: [RESTART_JOB, RESTART_POD, FAIL_JOB]

    Pod 失败后的处理行为

    exit_codes string

    Possible values: <= 1024 characters

    退出码匹配规则。范围1-255。支持以下格式: "99","99,101-255","99,100","99-101","161-250,251,252-255", "251,252-255,161"等。 若设置了 exit_codes,当 Pod 失败且其退出码匹配时,将执行对应 action。 若同时设置了 mark_node_unschedulable,且退出码匹配,反亲和逻辑也将触发。 若未设置 exit_codes,则无论退出码为何都会执行 action,但不会触发反亲和策略

    mark_node_unschedulable boolean

    标记节点不可调度。注意:如果没有可用节点(由于资源限制或节点回避策略过严),新建的Pod可能会无 限期处于Pending状态

  • ]
  • ssh object

    用于容器间通信的 SSH 配置

    auto_key_setup boolean

    是否自动配置容器间的 SSH 免密登录。 注意:MPI 任务将忽略此配置并强制启用免密登录

    config_mount_path string

    SSH 配置文件挂载路径。 启用 SSH 免密登录后,可自定义配置路径。 默认路径:/sensecore/compute/acp/ssh/ssh_config/

    barrier object

    Barrier 配置,作为训练任务的初始化容器(init container)。 充当任务启动过程中的屏障机制,确保各节点在启动与运行过程中能够稳定通信和同步。 - 当 barrier 内所有字段均为 false 时:表示禁用 barrier,将跳过所有检查(不创建 init container)。 - 当 barrier 内所有字段均未设置或均为 true 时:表示启用 barrier(默认行为)

    enable_ethernet_ping boolean

    是否启用以太网 ping 检查。 - 当设置为 false 时:跳过以太网 ping 检查。 - 当未设置或设置为 true 时:启用以太网 ping 检查(默认行为)

    enable_roce_mesh_ping boolean

    是否启用 RoCE 网络的 mesh ping 检查。 - 当设置为 false 时:跳过 RoCE 网络的 mesh ping 检查。 - 当未设置或设置为 true 时:启用 RoCE 网络的 mesh ping 检查(默认行为)。 注意:RoCE mesh ping 检查依赖以太网 ping 检查,当以太网 ping 检查被禁用时,RoCE mesh ping 将不会生效

    fine_tuning_specs string

    [beta]模型微调配置项[json string]

    async_checkpoint object

    [beta]AsyncCheckpoint. 是否开启,根据最大缓存轮数来判断

    max_ckpt_rounds int32

    最大缓存轮数

    lme object

    [beta]大模型可配置项

    enable_warmingup boolean

    [beta]任务运行前是否开启环境诊断

    max_retries int32

    [beta]配置重试最大次数

    enable_health_monitor boolean

    [beta]是否开启健康检测

    enable_checker boolean

    [beta]任务运行后是否开启环境诊断

Responses

OK


Schema
    name string

    Possible values: non-empty and <= 63 characters

    可选,任务名称. 不填写,则由后台默认随机生成. 若填入,则需要遵循以下规范: 1、1~63个字符 2、小写字母开头,小写字母或数字结尾 3、可包含小写英文字母、数字、中划线-

    display_name string required

    Possible values: non-empty and <= 256 characters

    任务显示名称. 需遵循规范: 1、1-256个字符 2、以中文字符、英文字母或数字开头 3、由中文字符、英文字母、数字、点号"."、半角冒号":"、下划线“_"和连字符"-"组成

    ownership object

    所有权关系. 只输出,请求无需传入

    framework enum required

    Possible values: [FRAMEWORK_UNSPECIFIED, MPI, PYTORCH, PYTORCH_DDP, TENSORFLOW, TENSORFLOW_PS, SENSEPARROTS, SENSEPARROTS_DDP]

    框架类型

    roles object[] required

    角色. 当前仅支持填写单个role

  • Array [
  • name string required

    角色名. 当前只支持填写Worker

    resource_spec object[] required

    资源规格

  • Array [
  • name string required

    资源规格名称. 根据资源规格列表获取. 例: N2lS.Ie.I60.2

    replicas int32

    请求调度副本数. 当前规格所需 worker 的数量. 当前不支持手动强异构调度,暂不支持

    limits object

    资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

    property name* string
    requests object

    资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

    property name* string
  • ]
  • total_replicas int32

    总副本. 所需 worker 的数量. 选择自动弱异构调度或者单规格时,total_replicas 必传

    startup_script string required

    启动脚本

    image_path string required

    镜像真实uri path

  • ]
  • env object[]

    可选,环境变量配置,最多支持10个

  • Array [
  • key string required

    key

    value string required

    value

  • ]
  • mount object[]

    卷挂载

  • Array [
  • type enum required

    Possible values: [MOUNT_TYPE_UNSPECIFIED, PV_AFS, PV_ACS, PV_AFS_MODEL, PV_AFS_TENSORBOARD]

    挂载类型

    id string required

    卷 ID

    mount_path string required

    挂载路径

    subdir string

    卷内的子目录

    zone string

    可用区

    endpoint string

    端点

  • ]
  • tensorboard object

    TensorBoard配置

    log_path string

    开启tensorboard之后的日志路径,需要与任一存储卷挂载路径保持一致. 是否开启tensorboard,根据路径值来判断

    scheduling object

    调度

    priority enum

    Possible values: [PRIORITY_UNSPECIFIED, NORMAL, HIGH, HIGHEST]

    调度优先级, 默认为 NORMAL

    quota_type enum

    Possible values: [JOB_QUOTA_TYPE_UNSPECIFIED, RESERVED, SPOT]

    配额类型,默认为 RESERVED。 仅当集群开启闲时配额,才支持创建 SPOT 任务;

    scoring_strategy object

    评分策略

    type enum

    Possible values: [MOST_ALLOCATED, LEAST_ALLOCATED]

    评分策略类型

    resource_pool object

    资源池

    name string required

    资源名称. 例: 集群名称、预留配额名称等,需要和资源类型对应上

    zone string

    公共集群的可用区,仅当使用公共集群创建任务时,需要传入,内容要与vpc_id对应上

    vpc_id string

    vpc id. 使用公共集群创建任务时,需要指定vpc的id

    fault_tolerance object

    容错配置(任务重试与Pod失败处理)

    backoff_limit int32

    Possible values: >= -1 and <= 2147483647

    标记任务失败前的最大重试次数。-1表示无限重试

    rules object[]

    Pod 失败后的处理策略:用于定义在满足条件时如何处理失败的 Pod。 最多允许填写 20 条规则。 规则按顺序评估,一旦匹配某条规则,将忽略其后的规则; 若无规则匹配,则默认行为为重启整个任务(restartJob)

  • Array [
  • action enum

    Possible values: [RESTART_JOB, RESTART_POD, FAIL_JOB]

    Pod 失败后的处理行为

    exit_codes string

    Possible values: <= 1024 characters

    退出码匹配规则。范围1-255。支持以下格式: "99","99,101-255","99,100","99-101","161-250,251,252-255", "251,252-255,161"等。 若设置了 exit_codes,当 Pod 失败且其退出码匹配时,将执行对应 action。 若同时设置了 mark_node_unschedulable,且退出码匹配,反亲和逻辑也将触发。 若未设置 exit_codes,则无论退出码为何都会执行 action,但不会触发反亲和策略

    mark_node_unschedulable boolean

    标记节点不可调度。注意:如果没有可用节点(由于资源限制或节点回避策略过严),新建的Pod可能会无 限期处于Pending状态

  • ]
  • ssh object

    用于容器间通信的 SSH 配置

    auto_key_setup boolean

    是否自动配置容器间的 SSH 免密登录。 注意:MPI 任务将忽略此配置并强制启用免密登录

    config_mount_path string

    SSH 配置文件挂载路径。 启用 SSH 免密登录后,可自定义配置路径。 默认路径:/sensecore/compute/acp/ssh/ssh_config/

    barrier object

    Barrier 配置,作为训练任务的初始化容器(init container)。 充当任务启动过程中的屏障机制,确保各节点在启动与运行过程中能够稳定通信和同步。 - 当 barrier 内所有字段均为 false 时:表示禁用 barrier,将跳过所有检查(不创建 init container)。 - 当 barrier 内所有字段均未设置或均为 true 时:表示启用 barrier(默认行为)

    enable_ethernet_ping boolean

    是否启用以太网 ping 检查。 - 当设置为 false 时:跳过以太网 ping 检查。 - 当未设置或设置为 true 时:启用以太网 ping 检查(默认行为)

    enable_roce_mesh_ping boolean

    是否启用 RoCE 网络的 mesh ping 检查。 - 当设置为 false 时:跳过 RoCE 网络的 mesh ping 检查。 - 当未设置或设置为 true 时:启用 RoCE 网络的 mesh ping 检查(默认行为)。 注意:RoCE mesh ping 检查依赖以太网 ping 检查,当以太网 ping 检查被禁用时,RoCE mesh ping 将不会生效

    fine_tuning_specs string

    [beta]模型微调配置项[json string]

    async_checkpoint object

    [beta]AsyncCheckpoint. 是否开启,根据最大缓存轮数来判断

    max_ckpt_rounds int32

    最大缓存轮数

    lme object

    [beta]大模型可配置项

    enable_warmingup boolean

    [beta]任务运行前是否开启环境诊断

    max_retries int32

    [beta]配置重试最大次数

    enable_health_monitor boolean

    [beta]是否开启健康检测

    enable_checker boolean

    [beta]任务运行后是否开启环境诊断

Loading...