获取任务列表

Path Parameters

subscription_name string required

resource_group_name string required

资源组

zone string required

可用区. 工作空间可用区，一般为region+z，例如：上海的region为cn-sh-01，工作空间的可用区则为cn-sh-01z

workspace_name string required

工作空间名称

Query Parameters

page_size int32

可选，单页结果数，默认10，最大500，需为非负整数，如果不填或填0，则使用默认值。超过最大值则使用最大值,负值将返回错误

page_token string

可选，指定要使用的页码，默认1.如果未指定则使用默认值，非正值返回错误

filter string

可选，过滤条件，支持以下字段： - 任务 UID（uid） - 任务显示名称（display_name） - 任务名称（name） - 状态（state） - 创建时间（created_at） - 用户名（user_name） - 创建者 ID（creator_id）支持的查询语法示例： - 前缀匹配：使用 * 作为通配符，仅支持字段前缀匹配。示例：display_name='test*' 表示以 "test" 开头。 - 精确匹配：示例：state='RUNNING' - 逻辑组合：支持使用逻辑操作符 AND、OR 构建复合条件。示例：name='acp*' OR display_name='acp*' AND state='RUNNING' 示例： filter = "display_name = 'test' OR uid = '12345' AND state = 'RUNNING'" filter = "created_at > '2025-06-07T11:04:38' AND created_at < '2025-07-20T11:04:38'"

name string

可选, 任务名称。支持前缀匹配

display_name string

可选, 任务显示名称。支持前缀匹配

state enum

Possible values: [STATE_UNSPECIFIED, WAITING, INIT, QUEUEING, CREATING, STARTING, RUNNING, RESTARTING, SUSPENDING, SUSPENDED, SUCCEEDED, FAILED, DELETING, DELETED, RECOVERING]

可选,任务状态.可通过该字段搜索. 等待中[Waiting]、初始化[Init]、排队中[Queueing]、创建中[Creating]、运行中[Running]、启动中[Starting]、重启中[Restarting]、暂停中[Suspending]、已暂停[Suspended]、成功[Succeeded]、失败[Failed]、删除中[Deleting]、已删除[Deleted]、恢复中[Recoving]

user_name string

可选,用户提交者。支持前缀匹配

aec2_name string

可选，过滤条件, AI弹性计算集群名称

priority enum

Possible values: [PRIORITY_UNSPECIFIED, NORMAL, HIGH, HIGHEST]

可选，任务优先级. 普通[NORMAL]、高优[HIGH]、最高[HIGHEST]

creator_id string

可选, 创建者 ID

Responses

200
default

application/json

Schema

Example (from schema)

Schema

training_jobs object[]

训练任务列表

Array [

name string

Possible values: non-empty and <= 63 characters

可选,任务名称. 不填写，则由后台默认随机生成. 若填入,则需要遵循以下规范: 1、1～63个字符 2、小写字母开头，小写字母或数字结尾 3、可包含小写英文字母、数字、中划线-

display_name string required

Possible values: non-empty and <= 256 characters

任务显示名称. 需遵循规范: 1、1-256个字符 2、以中文字符、英文字母或数字开头 3、由中文字符、英文字母、数字、点号"."、半角冒号":"、下划线“_"和连字符"-"组成

ownership object

所有权关系. 只输出,请求无需传入

framework enum required

Possible values: [FRAMEWORK_UNSPECIFIED, MPI, PYTORCH, PYTORCH_DDP, TENSORFLOW, TENSORFLOW_PS, SENSEPARROTS, SENSEPARROTS_DDP]

框架类型

roles object[] required

角色. 当前仅支持填写单个role

Array [

name string required

角色名. 当前只支持填写Worker

resource_spec object[] required

资源规格

Array [

name string required

资源规格名称. 根据资源规格列表获取. 例: N2lS.Ie.I60.2

replicas int32

请求调度副本数. 当前规格所需 worker 的数量. 当前不支持手动强异构调度，暂不支持

limits object

资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

property name* string

requests object

资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

property name* string

]

total_replicas int32

总副本. 所需 worker 的数量. 选择自动弱异构调度或者单规格时，total_replicas 必传

startup_script string required

启动脚本

image_path string required

镜像真实uri path

]

env object[]

可选,环境变量配置,最多支持10个

Array [

key string required

key

value string required

value

]

mount object[]

卷挂载

Array [

type enum required

Possible values: [MOUNT_TYPE_UNSPECIFIED, PV_AFS, PV_ACS, PV_AFS_MODEL, PV_AFS_TENSORBOARD]

挂载类型

id string required

卷 ID

mount_path string required

挂载路径

subdir string

卷内的子目录

zone string

可用区

endpoint string

端点

]

tensorboard object

TensorBoard配置

log_path string

开启tensorboard之后的日志路径，需要与任一存储卷挂载路径保持一致. 是否开启tensorboard，根据路径值来判断

scheduling object

调度

priority enum

Possible values: [PRIORITY_UNSPECIFIED, NORMAL, HIGH, HIGHEST]

调度优先级, 默认为 NORMAL

quota_type enum

Possible values: [JOB_QUOTA_TYPE_UNSPECIFIED, RESERVED, SPOT]

配额类型，默认为 RESERVED。仅当集群开启闲时配额，才支持创建 SPOT 任务；

scoring_strategy object

评分策略

type enum

Possible values: [MOST_ALLOCATED, LEAST_ALLOCATED]

评分策略类型

resource_pool object

资源池

name string required

资源名称. 例: 集群名称、预留配额名称等,需要和资源类型对应上

zone string

公共集群的可用区,仅当使用公共集群创建任务时,需要传入,内容要与vpc_id对应上

vpc_id string

vpc id. 使用公共集群创建任务时,需要指定vpc的id

fault_tolerance object

容错配置（任务重试与Pod失败处理）

backoff_limit int32

Possible values: >= -1 and <= 2147483647

标记任务失败前的最大重试次数。-1表示无限重试

rules object[]

Pod 失败后的处理策略：用于定义在满足条件时如何处理失败的 Pod。最多允许填写 20 条规则。规则按顺序评估，一旦匹配某条规则，将忽略其后的规则；若无规则匹配，则默认行为为重启整个任务（restartJob）

Array [

action enum

Possible values: [RESTART_JOB, RESTART_POD, FAIL_JOB]

Pod 失败后的处理行为

exit_codes string

Possible values: <= 1024 characters

退出码匹配规则。范围1-255。支持以下格式： "99"，"99,101-255"，"99,100"，"99-101"，"161-250,251,252-255"， "251,252-255,161"等。若设置了 exit_codes，当 Pod 失败且其退出码匹配时，将执行对应 action。若同时设置了 mark_node_unschedulable，且退出码匹配，反亲和逻辑也将触发。若未设置 exit_codes，则无论退出码为何都会执行 action，但不会触发反亲和策略

mark_node_unschedulable boolean

标记节点不可调度。注意：如果没有可用节点（由于资源限制或节点回避策略过严），新建的Pod可能会无限期处于Pending状态

]

ssh object

用于容器间通信的 SSH 配置

auto_key_setup boolean

是否自动配置容器间的 SSH 免密登录。注意：MPI 任务将忽略此配置并强制启用免密登录

config_mount_path string

SSH 配置文件挂载路径。启用 SSH 免密登录后，可自定义配置路径。默认路径：/sensecore/compute/acp/ssh/ssh_config/

barrier object

Barrier 配置，作为训练任务的初始化容器（init container）。充当任务启动过程中的屏障机制，确保各节点在启动与运行过程中能够稳定通信和同步。 - 当 barrier 内所有字段均为 false 时：表示禁用 barrier，将跳过所有检查（不创建 init container）。 - 当 barrier 内所有字段均未设置或均为 true 时：表示启用 barrier（默认行为）

enable_ethernet_ping boolean

是否启用以太网 ping 检查。 - 当设置为 false 时：跳过以太网 ping 检查。 - 当未设置或设置为 true 时：启用以太网 ping 检查（默认行为）

enable_roce_mesh_ping boolean

是否启用 RoCE 网络的 mesh ping 检查。 - 当设置为 false 时：跳过 RoCE 网络的 mesh ping 检查。 - 当未设置或设置为 true 时：启用 RoCE 网络的 mesh ping 检查（默认行为）。注意：RoCE mesh ping 检查依赖以太网 ping 检查，当以太网 ping 检查被禁用时，RoCE mesh ping 将不会生效

fine_tuning_specs string

[beta]模型微调配置项[json string]

async_checkpoint object

[beta]AsyncCheckpoint. 是否开启，根据最大缓存轮数来判断

max_ckpt_rounds int32

最大缓存轮数

lme object

[beta]大模型可配置项

enable_warmingup boolean

[beta]任务运行前是否开启环境诊断

max_retries int32

[beta]配置重试最大次数

enable_health_monitor boolean

[beta]是否开启健康检测

enable_checker boolean

[beta]任务运行后是否开启环境诊断

]

next_page_token string

下一页的token，用户需将该值作为下一次请求的page_token透传回来

total_size int32

符合当前查询条件的数据条数有限值，用于评估后续页数. 计算方法：根据request的 (page_token-1) * page_size + n，其中n最大值为10000，如果符合条件的数据条数达不到最大值，则为实际符合条件的数据总条数

{
  "training_jobs": [
    {
      "subscription_name": "string",
      "resource_group_name": "string",
      "zone": "string",
      "workspace_name": "string",
      "name": "string",
      "uid": "string",
      "display_name": "string",
      "id": "string",
      "ownership": {
        "user_name": "string",
        "user_id": "string",
        "requestor_id": "string",
        "tenant_id": "string"
      },
      "framework": "FRAMEWORK_UNSPECIFIED",
      "roles": [
        {
          "name": "string",
          "resource_spec": [
            {
              "name": "string",
              "replicas": 0,
              "description": "string",
              "limits": {},
              "requests": {}
            }
          ],
          "total_replicas": 0,
          "startup_script": "string",
          "image_path": "string"
        }
      ],
      "env": [
        {
          "key": "string",
          "value": "string"
        }
      ],
      "mount": [
        {
          "type": "MOUNT_TYPE_UNSPECIFIED",
          "id": "string",
          "mount_path": "string",
          "subdir": "string",
          "zone": "string",
          "endpoint": "string"
        }
      ],
      "tensorboard": {
        "log_path": "string"
      },
      "scheduling": {
        "priority": "PRIORITY_UNSPECIFIED",
        "quota_type": "JOB_QUOTA_TYPE_UNSPECIFIED",
        "scoring_strategy": {
          "type": "MOST_ALLOCATED"
        }
      },
      "resource_pool": {
        "name": "string",
        "display_name": "string",
        "zone": "string",
        "vpc_id": "string"
      },
      "state": "STATE_UNSPECIFIED",
      "root_mapping": true,
      "fault_tolerance": {
        "backoff_limit": 0,
        "rules": [
          {
            "action": "RESTART_JOB",
            "exit_codes": "string",
            "mark_node_unschedulable": true
          }
        ]
      },
      "ssh": {
        "auto_key_setup": true,
        "config_mount_path": "string"
      },
      "barrier": {
        "enable_ethernet_ping": true,
        "enable_roce_mesh_ping": true
      },
      "create_time": "2025-11-26T11:16:02.117Z",
      "start_time": "2025-11-26T11:16:02.117Z",
      "suspend_time": "2025-11-26T11:16:02.117Z",
      "update_time": "2025-11-26T11:16:02.117Z",
      "complete_time": "2025-11-26T11:16:02.117Z",
      "delete_time": "2025-11-26T11:16:02.117Z",
      "fine_tuning_specs": "string",
      "async_checkpoint": {
        "max_ckpt_rounds": 0
      },
      "lme": {
        "enable_warmingup": true,
        "max_retries": 0,
        "enable_health_monitor": true,
        "current_retries": 0,
        "enable_checker": true
      }
    }
  ],
  "next_page_token": "string",
  "total_size": 0
}

Default error response

application/json

Schema

Example (from schema)

Schema

code int32

The status code, which should be an enum value of [google.rpc.Code][google.rpc.Code].

message string

A developer-facing error message, which should be in English. Any user-facing error message should be localized and sent in the [google.rpc.Status.details][google.rpc.Status.details] field, or localized by the client.

details object[]

A list of messages that carry the error details. There is a common set of message types for APIs to use.

Array [

@type string

The type of the serialized message.

]

{
  "code": 0,
  "message": "string",
  "details": [
    {
      "@type": "string"
    }
  ]
}

获取任务列表​

获取任务列表