获取任务列表 | 大装置帮助中心
跳到主要内容

获取任务列表

获取任务列表

Path Parameters
    subscription_name string required

    订阅

    resource_group_name string required

    资源组

    zone string required

    可用区. 工作空间可用区,一般为region+z,例如:上海的region为cn-sh-01,工作空间的可用区则为cn-sh-01z

    workspace_name string required

    工作空间名称

Query Parameters
    page_size int32

    可选,单页结果数,默认10,最大500,需为非负整数,如果不填或填0,则使用默认值。超过最大值则使用最大值,负值将返回错误

    page_token string

    可选,指定要使用的页码,默认1.如果未指定则使用默认值,非正值返回错误

    filter string

    可选,过滤条件,支持以下字段: - 任务 UID(uid) - 任务显示名称(display_name) - 任务名称(name) - 状态(state) - 创建时间(created_at) - 用户名(user_name) - 创建者 ID(creator_id) 支持的查询语法示例: - 前缀匹配:使用 * 作为通配符,仅支持字段前缀匹配。 示例:display_name='test*' 表示以 "test" 开头。 - 精确匹配: 示例:state='RUNNING' - 逻辑组合:支持使用逻辑操作符 ANDOR 构建复合条件。 示例:name='acp*' OR display_name='acp*' AND state='RUNNING' 示例: filter = "display_name = 'test' OR uid = '12345' AND state = 'RUNNING'" filter = "created_at > '2025-06-07T11:04:38' AND created_at < '2025-07-20T11:04:38'"

    name string

    可选, 任务名称。支持前缀匹配

    display_name string

    可选, 任务显示名称。支持前缀匹配

    state enum

    Possible values: [STATE_UNSPECIFIED, WAITING, INIT, QUEUEING, CREATING, STARTING, RUNNING, RESTARTING, SUSPENDING, SUSPENDED, SUCCEEDED, FAILED, DELETING, DELETED, RECOVERING]

    可选,任务状态.可通过该字段搜索. 等待中[Waiting]、初始化[Init]、排队中[Queueing]、创建中[Creating]、运行中[Running]、启动中[Starting]、重启中[Restarting]、暂停中[Suspending]、已暂停[Suspended]、成功[Succeeded]、失败[Failed]、删除中[Deleting]、已删除[Deleted]、恢复中[Recoving]

    user_name string

    可选,用户提交者。支持前缀匹配

    aec2_name string

    可选,过滤条件, AI弹性计算集群名称

    priority enum

    Possible values: [PRIORITY_UNSPECIFIED, NORMAL, HIGH, HIGHEST]

    可选,任务优先级. 普通[NORMAL]、高优[HIGH]、最高[HIGHEST]

    creator_id string

    可选, 创建者 ID

Responses

OK


Schema
    training_jobs object[]

    训练任务列表

  • Array [
  • name string

    Possible values: non-empty and <= 63 characters

    可选,任务名称. 不填写,则由后台默认随机生成. 若填入,则需要遵循以下规范: 1、1~63个字符 2、小写字母开头,小写字母或数字结尾 3、可包含小写英文字母、数字、中划线-

    display_name string required

    Possible values: non-empty and <= 256 characters

    任务显示名称. 需遵循规范: 1、1-256个字符 2、以中文字符、英文字母或数字开头 3、由中文字符、英文字母、数字、点号"."、半角冒号":"、下划线“_"和连字符"-"组成

    ownership object

    所有权关系. 只输出,请求无需传入

    framework enum required

    Possible values: [FRAMEWORK_UNSPECIFIED, MPI, PYTORCH, PYTORCH_DDP, TENSORFLOW, TENSORFLOW_PS, SENSEPARROTS, SENSEPARROTS_DDP]

    框架类型

    roles object[] required

    角色. 当前仅支持填写单个role

  • Array [
  • name string required

    角色名. 当前只支持填写Worker

    resource_spec object[] required

    资源规格

  • Array [
  • name string required

    资源规格名称. 根据资源规格列表获取. 例: N2lS.Ie.I60.2

    replicas int32

    请求调度副本数. 当前规格所需 worker 的数量. 当前不支持手动强异构调度,暂不支持

    limits object

    资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

    property name* string
    requests object

    资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

    property name* string
  • ]
  • total_replicas int32

    总副本. 所需 worker 的数量. 选择自动弱异构调度或者单规格时,total_replicas 必传

    startup_script string required

    启动脚本

    image_path string required

    镜像真实uri path

  • ]
  • env object[]

    可选,环境变量配置,最多支持10个

  • Array [
  • key string required

    key

    value string required

    value

  • ]
  • mount object[]

    卷挂载

  • Array [
  • type enum required

    Possible values: [MOUNT_TYPE_UNSPECIFIED, PV_AFS, PV_ACS, PV_AFS_MODEL, PV_AFS_TENSORBOARD]

    挂载类型

    id string required

    卷 ID

    mount_path string required

    挂载路径

    subdir string

    卷内的子目录

    zone string

    可用区

    endpoint string

    端点

  • ]
  • tensorboard object

    TensorBoard配置

    log_path string

    开启tensorboard之后的日志路径,需要与任一存储卷挂载路径保持一致. 是否开启tensorboard,根据路径值来判断

    scheduling object

    调度

    priority enum

    Possible values: [PRIORITY_UNSPECIFIED, NORMAL, HIGH, HIGHEST]

    调度优先级, 默认为 NORMAL

    quota_type enum

    Possible values: [JOB_QUOTA_TYPE_UNSPECIFIED, RESERVED, SPOT]

    配额类型,默认为 RESERVED。 仅当集群开启闲时配额,才支持创建 SPOT 任务;

    scoring_strategy object

    评分策略

    type enum

    Possible values: [MOST_ALLOCATED, LEAST_ALLOCATED]

    评分策略类型

    resource_pool object

    资源池

    name string required

    资源名称. 例: 集群名称、预留配额名称等,需要和资源类型对应上

    zone string

    公共集群的可用区,仅当使用公共集群创建任务时,需要传入,内容要与vpc_id对应上

    vpc_id string

    vpc id. 使用公共集群创建任务时,需要指定vpc的id

    fault_tolerance object

    容错配置(任务重试与Pod失败处理)

    backoff_limit int32

    Possible values: >= -1 and <= 2147483647

    标记任务失败前的最大重试次数。-1表示无限重试

    rules object[]

    Pod 失败后的处理策略:用于定义在满足条件时如何处理失败的 Pod。 最多允许填写 20 条规则。 规则按顺序评估,一旦匹配某条规则,将忽略其后的规则; 若无规则匹配,则默认行为为重启整个任务(restartJob)

  • Array [
  • action enum

    Possible values: [RESTART_JOB, RESTART_POD, FAIL_JOB]

    Pod 失败后的处理行为

    exit_codes string

    Possible values: <= 1024 characters

    退出码匹配规则。范围1-255。支持以下格式: "99","99,101-255","99,100","99-101","161-250,251,252-255", "251,252-255,161"等。 若设置了 exit_codes,当 Pod 失败且其退出码匹配时,将执行对应 action。 若同时设置了 mark_node_unschedulable,且退出码匹配,反亲和逻辑也将触发。 若未设置 exit_codes,则无论退出码为何都会执行 action,但不会触发反亲和策略

    mark_node_unschedulable boolean

    标记节点不可调度。注意:如果没有可用节点(由于资源限制或节点回避策略过严),新建的Pod可能会无 限期处于Pending状态

  • ]
  • ssh object

    用于容器间通信的 SSH 配置

    auto_key_setup boolean

    是否自动配置容器间的 SSH 免密登录。 注意:MPI 任务将忽略此配置并强制启用免密登录

    config_mount_path string

    SSH 配置文件挂载路径。 启用 SSH 免密登录后,可自定义配置路径。 默认路径:/sensecore/compute/acp/ssh/ssh_config/

    barrier object

    Barrier 配置,作为训练任务的初始化容器(init container)。 充当任务启动过程中的屏障机制,确保各节点在启动与运行过程中能够稳定通信和同步。 - 当 barrier 内所有字段均为 false 时:表示禁用 barrier,将跳过所有检查(不创建 init container)。 - 当 barrier 内所有字段均未设置或均为 true 时:表示启用 barrier(默认行为)

    enable_ethernet_ping boolean

    是否启用以太网 ping 检查。 - 当设置为 false 时:跳过以太网 ping 检查。 - 当未设置或设置为 true 时:启用以太网 ping 检查(默认行为)

    enable_roce_mesh_ping boolean

    是否启用 RoCE 网络的 mesh ping 检查。 - 当设置为 false 时:跳过 RoCE 网络的 mesh ping 检查。 - 当未设置或设置为 true 时:启用 RoCE 网络的 mesh ping 检查(默认行为)。 注意:RoCE mesh ping 检查依赖以太网 ping 检查,当以太网 ping 检查被禁用时,RoCE mesh ping 将不会生效

    fine_tuning_specs string

    [beta]模型微调配置项[json string]

    async_checkpoint object

    [beta]AsyncCheckpoint. 是否开启,根据最大缓存轮数来判断

    max_ckpt_rounds int32

    最大缓存轮数

    lme object

    [beta]大模型可配置项

    enable_warmingup boolean

    [beta]任务运行前是否开启环境诊断

    max_retries int32

    [beta]配置重试最大次数

    enable_health_monitor boolean

    [beta]是否开启健康检测

    enable_checker boolean

    [beta]任务运行后是否开启环境诊断

  • ]
  • next_page_token string

    下一页的token,用户需将该值作为下一次请求的page_token透传回来

    total_size int32

    符合当前查询条件的数据条数有限值,用于评估后续页数. 计算方法:根据request的 (page_token-1) * page_size + n,其中n最大值为10000,如果符合条件的数据条数达不到最大值,则为实际符合条件的数据总条数

Loading...