AI弹性计算集群 AEC2
产品动态
版本号 | 更新内容 | 更新时间 |
---|---|---|
AI弹性计算集群 v2.5 | 支持更多硬件、增加国产加速卡硬件适配;LITE弹性计算集群发布;弹性计算集群纳入审计;弹性计算集群交互体验优化;优化国产加速卡调度器;优化多副本小碎片场景调度效果;下线预留配额 | 2024-9-30 |
AI弹性计算集群 v2.4 | 优化页面展示及集群资源状况展示,新增节点负载、监控查看快捷入口,AEC2 SCO命令丰富 | 2024-8-30 |
AI弹性计算集群 v2.3 | 支持节点调度预选优选;AEC2 SCO命令完善;新增公共集群机型和GPU支持 | 2024-7-30 |
AI弹性计算集群 v2.2 | 支持资源预留功能支持后付费转预付费;新增硬件支持 | 2024-6-30 |
AI弹性计算集群 v2.1 | 全面支持SPOT闲时配额;支持资源预留功能;节点级训练网监控指标;支持商汤自研加速芯片阵量PT200-X1 | 2024-5-30 |
AI弹性计算集群 v2.0 | 华云A10040G支持;增加闲时可共享资源;异常硬件检测功能;资源统计修正;公共集群支持训练 | 2024-4-30 |
AI弹性计算集群 v1.9 | 910BGPU服务器支持虚拟化卡;增加工作空间posix状态信息与开关;支持节点跨集群迁移;复用模型文件调度带原节点;新增VPC与可用区校验 | 2024-3-30 |
AI弹性计算集群 v1.8 | 异构集群支持:支持异构集群创建;异构集群调度策略支持;支持异构集群水位监控、节点管理;支持华为910B A+KGPU服务器集群 | 2024-2-28 |
AI弹性计算集群 v1.7 | 专用 AEC2 支持多 AZ 和 异构sku;华为910B A+X集群适配;A800-40gGPU服务器集群适配;T4GPU服务器集群适配;内存限制优化;节点名称支持自定义修改 | 2024-1-30 |
AI弹性计算集群 v1.6 | 增加昇腾910B、L40S支持;增加按量付费支持,计费时间精确为分钟级别;初版实现公共弹性AI计算集群;支持海外版H100GPU集群;节点名称可修改; | 2023-12-30 |
AI弹性计算集群 v1.5 | 集群详情增加不同类型任务工作负载排队情况;集群水位监控优化增加总分配净值;集群节点管理监控优化增加硬件资源分配占比,并支持节点搜索和批量操作;集群支持添加无训练网络的纯CPU机型节点;工作空间管理添加用户时,支持配置用户使用资源优先级; | 2023-11-30 |
AI弹性计算集群 v1.4 | 增加寒武纪MLU290支持、增加英伟达H800GPU支持 | 2023-10-30 |
AI弹性计算集群 v1.3 | 增加集群查看者角色、工作空间名称和集群名称支持修改 | 2023-09-30 |
AI弹性计算集群 v1.2 | 新增集群水位监控 | 2023-08-30 |
AI弹性计算集群 v1.0 | 上线AI弹性计算集群,支持节点的生命周期管理、工作空间和集群的管理 | 2023-07-26 |
产品概述
AI弹性计算集群 AEC2(AI Elastic Compute Cluster)提供了节点管理、集群管理、工作空间管理三种功能。便于客户对算力资源进行统一的管理和分配。
产品优势
高性能:提供多种高性能异构算力资源,搭配IB训练网络,为训练任务搭建高效运行环境。
弹性灵活:根据业务目标灵活调整集群中算力资源,方便快捷。
产品功能
资源统一管理:支持客户按需购买和释放算力资源,支持所有新购算力资源的管理,为不同规格的计算资源提供统一的管理平台。
资源按需分配:支持客户对算力资源进行分组管理,基于同一组资源进行分布式训练任务的运行。
名词解释
中文名 | 英文名 | 缩写 | 释义 |
---|---|---|---|
AI弹性计算集群 | AI Elastic Compute Cluster | AEC2 | 对节点进行分组管理的虚拟概念。 |
高性能AI计算节点 | AI Compute Node | ACN | 某种配置的算力资源,每一个节点对应一台真实的机器,需要购买才能使用。 |
工作空间 | Workspace | - | 对任务进行分组管理的虚拟概念。必须关联到了集群才能使用集群内的节点。 |
训练任务 | Training Job | - | 模型训练任务。 |
闲时配额 | Spot Quota | Spot | 可灵活分享、收回的低优先级共享资源 |
预留配额 | Reserved Quota | - | 公共集群下的预先资源占用 |
关联关系:
计费说明
AI弹性计算集群采用包年包月的计费模式,针对购买的节点资源进行计费,计费公式如下:
总价 = 算力资源单价 * 使用时长
新手入门
AI弹性计算集群 AEC2提供了资源的管理功能,并不能单独用于运行训练任务。若要进行模型训练,需要结合高性能AI算力池产品(训练任务管理,不收费)使用,点击查看高性能AI算力池产品介绍。我们推荐的使用方式:
管理员
- 购买所需算力资源(即高性能AI计算节点 ACN);
- 创建集群,并绑定已购算力资源;
已购资源无需属于同一个订单,但必须同属于同一个训练网,训练网信息可以从ACN列表查看。
- 创建工作空间,并关联已创建集群以及添加负责人和成员到工作空间中;
所有工作空间内的用户都可以使用工作空间关联的集群资源。
- 查看集群的水位情况以及集群关联节点的相关状态;
集群是对资源进行分类、分组管理的手段,工作空间是对项目和人员进行分组。
研究员
- 请确保该人员已经被加入了某个工作空间中;
- 可以在某个工作空间下,使用一个关联的集群中的算力资源运行训练任务;
权限说明
我们为您预置了一些角色,方便您对集群和任务进行管理:
权限主体 | 权限点 | 管理员(主账号) (指的是RM的各级管理员) | 工作空间管理员 (在IAM页面授予) | 工作空间所有者 | 工作空间用户 (相当ACP+CCI) | 工作空间高优用户 (通过优先级上限授予) | 集群管理员 (在IAM页面授予) | 集群维护者 | 集群查看者 (在IAM页面授予) | 任务用户 | 任务高优用户 (通过优先级上限授予) | 应用用户 | 应用高优用户 (通过优先级上限授予) | 算力池任务所有者(默认) | 容器应用所有者(默认) | 配置项所有者(默认) | 密钥所有者(默认) |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
节点 | 下单/释放 | √ | |||||||||||||||
查看详情 | √ | √ | |||||||||||||||
list | √ | √ | |||||||||||||||
集群 | 创建/删除 | √ | √ | ||||||||||||||
添加或移除节点 | √ | √ | √ | ||||||||||||||
关联/解除关联到集群 | √ | √ | √ | ||||||||||||||
查看关联的工作空间 | √ | √ | √ | √ | √ | √ | |||||||||||
启用/禁用节点 | √ | √ | √ | ||||||||||||||
查看详情 | √ | √ | √ | √ | √ | √ | |||||||||||
list | √ | √ | √ | √ | √ | ||||||||||||
预留 配额 | 创建/删除 | √ | √ | ||||||||||||||
关联/解除关联工作空间到资源配额 | √ | √ | |||||||||||||||
查看关联的工作空间 | √ | √ | √ | √ | √ | ||||||||||||
查看详情 | √ | √ | √ | √ | √ | ||||||||||||
list | √ | √ | √ | √ | |||||||||||||
工作空间 | 创建/删除 | √ | √ | ||||||||||||||
list | √ | √ | √ | ||||||||||||||
查看详情 | √ | √ | √ | √ | √ | √ | √ | ||||||||||
查看关联的AEC2 | √ | √ | √ | √ | √ | √ | √ | ||||||||||
查看成员 | √ | √ | √ | √ | √ | √ | |||||||||||
添加/删除成员 | √ | √ | √ | ||||||||||||||
修改成员角色 | √ | √ | √ | ||||||||||||||
查看所有任务(list&详情) | √ | √ | √ | √ | |||||||||||||
查看所有应用(list&详情) | √ | √ | √ | √ | |||||||||||||
查看所有密钥、配置项 | √ | √ | √ | (这里未来ACP支持config和secret时要改) | √ | ||||||||||||
任务 | 创建 | √ | √ | √ | √ | ||||||||||||
查看详情 | √ | √ | √ | √ | |||||||||||||
复制 | √ | √ | √ | √ | |||||||||||||
停止 | √ | √ | √ | ||||||||||||||
重启 | √ | √ | √ | ||||||||||||||
删除 | √ | √ | √ | ||||||||||||||
查看监控 | √ | √ | √ | √ | |||||||||||||
查看日志 | √ | √ | √ | √ | |||||||||||||
查看Worker详情 | √ | √ | √ | √ | |||||||||||||
设置任务优先级为普通 | √ | √ | √ | √ | |||||||||||||
设置任务优先级为高优 | √ | √ | √ | √ | |||||||||||||
设置任务优先级为最高 | √ | √ | |||||||||||||||
应用 | 创建 | √ | √ | √ | √ | ||||||||||||
查看详情 | √ | √ | √ | √ | |||||||||||||
复制 | √ | √ | √(这里有一个case,张3复制李4的任务时,可能会挂载别人的secret,这里是挂不上的,这种情况下复制是成功不了的) | √ | |||||||||||||
停止 | √ | √ | √ | ||||||||||||||
启动 | √ | √ | √ | ||||||||||||||
删除/更新/修改 | √ | √ | √ | ||||||||||||||
查看监控 | √ | √ | √ | √ | |||||||||||||
查看日志(暂未上线此功能) | √ | √ | √ | √ | |||||||||||||
查看容器实例(Pod)详情 | √ | √ | √ | √ | |||||||||||||
设置应用优先级为普通 | √ | √ | √ | √ | |||||||||||||
设置应用优先级为高优 | √ | √ | √ | √ | |||||||||||||
设置应用优先级为最高 | √ | √ | |||||||||||||||
配置项(configmap) | 创建 | √ | √ | √ | (这里未来ACP支持config和secret时要改,和CCI用户对齐) | √ | |||||||||||
更新 | √ | √ | √ | ||||||||||||||
查看详情页 | √ | √ | √ | √ | |||||||||||||
挂载 | √ | √ | √ | √ | |||||||||||||
删除 | √ | √ | √ | ||||||||||||||
密钥(secret) | 创建 | √ | √ | √ | √ | ||||||||||||
更新 | 不支持更新,此处与configmap是不一样的 | 不支持更新,此处与configmap是不一样的 | √ | ||||||||||||||
查看详情页 | √ | √ | √ | √ | |||||||||||||
挂载 | 不支持被挂载,此处与config是不一样的 | 不支持被挂载,此处与config是不一样的 | √ | ||||||||||||||
删除 | √ | √ | √ | ||||||||||||||
注:管理员的权限作用范围是其权限对应的管理组/订阅/资源组下的所有实例。
使用指南
购买高性能AI计算节点
在中找到“节点管理”(侧边栏),点击“创建节点”进行购买。
您可以选择不同配置的节点进行批量购买(即不同SKU),每一个节点都会生成一个节点实例。
当您批量购买时,您的节点实例都会被赋予购买时填写的节点实例名称,我们会为其自动增加后缀(数字)来区分不同的实例。
在节点管理页面,您可以看到节点实例的相关信息,节点实例的状态包含准备中(准备物理资源)、正常、不可用(实例已进入保留期,无法正常使用)、释放中。
AI弹性计算集群管理
创建AI弹性计算集群
- 在中找到“集群管理”(侧边栏),点击“创建集群”进行集群的创建。
集群创建不需要付费,只有管理组/订阅/资源组的管理员可以创建。
- 创建集群时,可以直接绑定以购买的高性能AI计算节点,也可以直接关联已创建的工作空间。
只有同在一个训练网内的节点可以被绑定到一个集群内,节点的训练网可以在节点列表中进行查看。
- 创建集群后,您可以在集群列表中看到对应集群的信息,也可以点击集群名称查看集群详情,可以在集群详情内修改绑定的节点或修改工作空间的关联情况。
- 在集群中被绑定的节点拥有两个标签:正常/异常,启用/禁用。
- 您可以在集群详情中查看集群资源的水位信息以及被任务预先占用的资源信息。
我们的任务调度系统会检测节点,若节点异常,那么它无法参与任务的调度。
启用和禁用则由集群管理员手动操作。被禁用的节点同样无法参与任务的调度。(点击集群名称可以查看集群详情,点击节点管理分页可以对节点进行启用禁用)
因此只有节点实例状态为正常,且在集群中的标签为正常和启用时,该节点才能参与任务的调度。
集群详情
基本信息:展示集群所在地区和可用区、集群状态信息、VPC、和支持的训练网类型;
关联工作空间:可快速将集群挂载在组织的工作空间;
集群水位
资源概览:展示集群中相关硬件资源的总量、已分配净值、实时使用率、和任务占比资源情况;
资源水位概览:支持展示小时、天、月维度的硬件资源使用占比情况;
集群节点管理
节点统计:方便用户查看集群中节点的健康情况,快速定位异常节点数量,和禁用节点数量;其中这里的正常和异常指的是物理节点是否出现了掉卡等情况导致调度器识别不到该节点,因此也没办法参与训练任务的调度。这个状态无法进行手动变更,需要反馈给技术支持人员。
节点视图: 支持节点卡片,和节点列表两种展示方式,可详细看到各节点的健康状态,资源分配占比;
节点禁用/移除/启用:根据节点健康状态,用户可手动移除或禁用异常节点,其中被禁用的节点不会参与训练任务的调度;
单节点监控:点击【更多-更多监控】操作按钮,可查看单节点下CPU、加速芯片、内存等的使用率;
单节点负载:点击【更多-查看负载】操作按钮,可查看单节点下启动的各Worker任务负载情况;
集群工作负载
不同任务类型在同一个集群中排队的,【工作负载】页面能帮助用户看到当前不同类型工作负载的排队情况;
集群开启闲时配额
定位
面对高SLA业务,用户通过购买ACN节点构建AEC2集群,从云服务商锁定了资源;
在高SLA业务有明显的波峰波谷情况下,将波谷时将资源分享给低SLA业务,并能及退还;
保证业务可用性的同时,实现资源充分利用的资源运营目标,提升低优业务的资源供给。
使用
在集群管理界面打开闲时配额开关,并在仅Spot资源关联工作空间按钮处,将Spot资源关联到想要共享资源的工作空间。
集群开启资源预留
定位
公共集群Serverless模式下,用户的工作负载停止时,资源被释放,有可能再次拉起时没有资源供应。预付费包月,建立了一种用户用量的预期,我们可以合理的提供资源预留可以实现用户资源供应的保证。
使用
入口:AI弹性计算集群->预留配额->创建预留配额
提示:预留配额用于在公共集群中预留特定规格资源,在资源紧张时保证资源的供应。预留配额过期后,运行中的工作负载将按量计费。 提示2:预留配额在转为后付费,可以通过续约按钮,重新讲预留配额转为包月预付费
查看
入口:AI弹性计算集群->预留配额
- 预留配额列表页的展示,包括显示名称、计费方式等信息(如图)
- 点击扩容,跳转到下单页面
- 点击续订,跳转到续订页面
- 点击释放,直接停止工作负载
- 用户点击创建预留配额,进入下单界面
工作空间管理
创建工作空间
在AI弹性计算集群控制台中找到“工作空间管理”(侧边栏),点击“创建工作空间”进行工作空间的创建。
创建工作空间时,可以直接关联集群。
创建工作空间后,您可以在工作空间列表中查看对应工作空间的信息,也可以点击工作空间名称查看工作空间详情,可以在工作空间详情内修改集群的关联情况。
工作空间详情
展示工作空间可用状态,工作空间中有使用权限的用户、和可用集群等信息;
工作空间添加关联成员
添加成员:添加成员即可(当然您也可以直接去用户-授权管理中对用户进行授权,这和在这里直接添加成员是一样的);
绑定角色:当前系统内置了4个角色,角色概念如下:
AI弹性计算集群工作空间所有者:该工作空间的管理者,他可以操作该工作空间下的所有任务;
AI弹性计算集群工作空间用户:是该工作空间的使用者,他只能操作该工作空间下自己的任务,但是可以查看该工作空间下的所有任务;
容器应用用户:仅能在工作空间中创建云容器实例CCI应用;
算力池任务用户:仅能在工作空间中创建高性能AI算力池ACP训练任务;
- 优先级:用户提交任务和创建应用时可用的优先级上限。此处高优用户可提交高优、普通优先级作业。
工作空间添加关联集群
工作空间关联上集群,工作空间内的用户才能使用该集群的资源来进行训练。
工作空间开启AFS身份识别
为了满足如下需求:
- 身份鉴权:每个工作负载根据其创建者的身份进行文件操作,这确保了文件系统访问的权限控制更加细粒度和严格。
- 数据隔离:避免不同用户或工作负载之间的不必要访问,保护敏感数据的安全。
- 合规性要求:某些场景下,特别是在生产环境或者处理敏感数据时,需要严格的权限控制以满足合规性和安全性的要求
工作空间现提供AFS身份识别功能。在工作空间的详情处可用如下方式开启AFS身份识别:
身份识别开关的影响如下:
- 关闭时,工作负载挂载AFS文件后将以root身份进行读写,简化工作空间成员共享数据;
- 开启时,工作负载读写AFS文件时,AFS将以工作负载创建者份身份进行鉴权。
如果您对AI弹性计算集群AEC2有任何疑问或建议,请欢迎随时联系我们。您的支持和反馈是我们进步最大的动力!