查看任务详情
查看任务详情
Path Parameters
订阅
资源组
可用区. 工作空间可用区,一般为region+z,例如:上海的region为cn-sh-01,工作空间的可用区则为cn-sh-01z
工作空间名称
训练任务名称
- 200
- default
OK
Schema
- Array [
- Array [
- ]
- ]
- Array [
- ]
- Array [
- ]
- Array [
- ]
Possible values: non-empty and <= 63 characters
可选,任务名称. 不填写,则由后台默认随机生成. 若填入,则需要遵循以下规范: 1、1~63个字符 2、小写字母开头,小写字母或数字结尾 3、可包含小写英文字母、数字、中划线-
Possible values: non-empty and <= 256 characters
任务显示名称. 需遵循规范: 1、1-256个字符 2、以中文字符、英文字母或数字开头 3、由中文字符、英文字母、数字、点号"."、半角冒号":"、下划线“_"和连字符"-"组成
ownership object
所有权关系. 只输出,请求无需传入
Possible values: [FRAMEWORK_UNSPECIFIED, MPI, PYTORCH, PYTORCH_DDP, TENSORFLOW, TENSORFLOW_PS, SENSEPARROTS, SENSEPARROTS_DDP]
框架类型
roles object[] required
角色. 当前仅支持填写单个role
角色名. 当前只支持填写Worker
resource_spec object[] required
资源规格
资源规格名称. 根据资源规格列表获取. 例: N2lS.Ie.I60.2
请求调度副本数. 当前规格所需 worker 的数量. 当前不支持手动强异构调度,暂不支持
limits object
资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)
requests object
资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)
总副本. 所需 worker 的数量. 选择自动弱异构调度或者单规格时,total_replicas 必传
启动脚本
镜像真实uri path
env object[]
可选,环境变量配置,最多支持10个
key
value
mount object[]
卷挂载
Possible values: [MOUNT_TYPE_UNSPECIFIED, PV_AFS, PV_ACS, PV_AFS_MODEL, PV_AFS_TENSORBOARD]
挂载类型
卷 ID
挂载路径
卷内的子目录
可用区
端点
tensorboard object
TensorBoard配置
开启tensorboard之后的日志路径,需要与任一存储卷挂载路径保持一致. 是否开启tensorboard,根据路径值来判断
scheduling object
调度
Possible values: [PRIORITY_UNSPECIFIED, NORMAL, HIGH, HIGHEST]
调度优先级, 默认为 NORMAL
Possible values: [JOB_QUOTA_TYPE_UNSPECIFIED, RESERVED, SPOT]
配额类型,默认为 RESERVED。 仅当集群开启闲时配额,才支持创建 SPOT 任务;
scoring_strategy object
评分策略
Possible values: [MOST_ALLOCATED, LEAST_ALLOCATED]
评分策略类型
resource_pool object
资源池
资源名称. 例: 集群名称、预留配额名称等,需要和资源类型对应上
公共集群的可用区,仅当使用公共集群创建任务时,需要传入,内容要与vpc_id对应上
vpc id. 使用公共集群创建任务时,需要指定vpc的id
fault_tolerance object
容错配置(任务重试与Pod失败处理)
Possible values: >= -1 and <= 2147483647
标记任务失败前的最大重试次数。-1表示无限重试
rules object[]
Pod 失败后的处理策略:用于定义在满足条件时如何处理失败的 Pod。 最多允许填写 20 条规则。 规则按顺序评估,一旦匹配某条规则,将忽略其后的规则; 若无规则匹配,则默认行为为重启整个任务(restartJob)
Possible values: [RESTART_JOB, RESTART_POD, FAIL_JOB]
Pod 失败后的处理行为
Possible values: <= 1024 characters
退出码匹配规则。范围1-255。支持以下格式: "99","99,101-255","99,100","99-101","161-250,251,252-255", "251,252-255,161"等。 若设置了 exit_codes,当 Pod 失败且其退出码匹配时,将执行对应 action。 若同时设置了 mark_node_unschedulable,且退出码匹配,反亲和逻辑也将触发。 若未设置 exit_codes,则无论退出码为何都会执行 action,但不会触发反亲和策略
标记节点不可调度。注意:如果没有可用节点(由于资源限制或节点回避策略过严),新建的Pod可能会无 限期处于Pending状态
ssh object
用于容器间通信的 SSH 配置
是否自动配置容器间的 SSH 免密登录。 注意:MPI 任务将忽略此配置并强制启用免密登录
SSH 配置文件挂载路径。 启用 SSH 免密登录后,可自定义配置路径。 默认路径:/sensecore/compute/acp/ssh/ssh_config/
barrier object
Barrier 配置,作为训练任务的初始化容器(init container)。 充当任务启动过程中的屏障机制,确保各节点在启动与运行过程中能够稳定通信和同步。 - 当 barrier 内所有字段均为 false 时:表示禁用 barrier,将跳过所有检查(不创建 init container)。 - 当 barrier 内所有字段均未设置或均为 true 时:表示启用 barrier(默认行为)
是否启用以太网 ping 检查。 - 当设置为 false 时:跳过以太网 ping 检查。 - 当未设置或设置为 true 时:启用以太网 ping 检查(默认行为)
是否启用 RoCE 网络的 mesh ping 检查。 - 当设置为 false 时:跳过 RoCE 网络的 mesh ping 检查。 - 当未设置或设置为 true 时:启用 RoCE 网络的 mesh ping 检查(默认行为)。 注意:RoCE mesh ping 检查依赖以太网 ping 检查,当以太网 ping 检查被禁用时,RoCE mesh ping 将不会生效
[beta]模型微调配置项[json string]
async_checkpoint object
[beta]AsyncCheckpoint. 是否开启,根据最大缓存轮数来判断
最大缓存轮数
lme object
[beta]大模型可配置项
[beta]任务运行前是否开启环境诊断
[beta]配置重试最大次数
[beta]是否开启健康检测
[beta]任务运行后是否开启环境诊断
{
"subscription_name": "string",
"resource_group_name": "string",
"zone": "string",
"workspace_name": "string",
"name": "string",
"uid": "string",
"display_name": "string",
"id": "string",
"ownership": {
"user_name": "string",
"user_id": "string",
"requestor_id": "string",
"tenant_id": "string"
},
"framework": "FRAMEWORK_UNSPECIFIED",
"roles": [
{
"name": "string",
"resource_spec": [
{
"name": "string",
"replicas": 0,
"description": "string",
"limits": {},
"requests": {}
}
],
"total_replicas": 0,
"startup_script": "string",
"image_path": "string"
}
],
"env": [
{
"key": "string",
"value": "string"
}
],
"mount": [
{
"type": "MOUNT_TYPE_UNSPECIFIED",
"id": "string",
"mount_path": "string",
"subdir": "string",
"zone": "string",
"endpoint": "string"
}
],
"tensorboard": {
"log_path": "string"
},
"scheduling": {
"priority": "PRIORITY_UNSPECIFIED",
"quota_type": "JOB_QUOTA_TYPE_UNSPECIFIED",
"scoring_strategy": {
"type": "MOST_ALLOCATED"
}
},
"resource_pool": {
"name": "string",
"display_name": "string",
"zone": "string",
"vpc_id": "string"
},
"state": "STATE_UNSPECIFIED",
"root_mapping": true,
"fault_tolerance": {
"backoff_limit": 0,
"rules": [
{
"action": "RESTART_JOB",
"exit_codes": "string",
"mark_node_unschedulable": true
}
]
},
"ssh": {
"auto_key_setup": true,
"config_mount_path": "string"
},
"barrier": {
"enable_ethernet_ping": true,
"enable_roce_mesh_ping": true
},
"create_time": "2025-09-12T08:34:51.878Z",
"start_time": "2025-09-12T08:34:51.878Z",
"suspend_time": "2025-09-12T08:34:51.878Z",
"update_time": "2025-09-12T08:34:51.878Z",
"complete_time": "2025-09-12T08:34:51.878Z",
"delete_time": "2025-09-12T08:34:51.878Z",
"fine_tuning_specs": "string",
"async_checkpoint": {
"max_ckpt_rounds": 0
},
"lme": {
"enable_warmingup": true,
"max_retries": 0,
"enable_health_monitor": true,
"current_retries": 0,
"enable_checker": true
}
}
Default error response
Schema
- Array [
- ]
The status code, which should be an enum value of [google.rpc.Code][google.rpc.Code].
A developer-facing error message, which should be in English. Any user-facing error message should be localized and sent in the [google.rpc.Status.details][google.rpc.Status.details] field, or localized by the client.
details object[]
A list of messages that carry the error details. There is a common set of message types for APIs to use.
The type of the serialized message.
{
"code": 0,
"message": "string",
"details": [
{
"@type": "string"
}
]
}