资源管理 | 大装置帮助中心
跳到主要内容

资源管理

购买高性能AI计算节点

  1. 中找到“节点管理”(侧边栏),点击“创建节点”进行购买。

  2. 您可以选择不同配置的节点进行批量购买(即不同SKU),每一个节点都会生成一个节点实例。

  3. 当您批量购买时,您的节点实例都会被赋予购买时填写的节点实例名称,我们会为其自动增加后缀(数字)来区分不同的实例。

  4. 在节点管理页面,您可以看到节点实例的相关信息,节点实例的状态包含准备中(准备物理资源)、正常、不可用(实例已进入保留期,无法正常使用)、释放中。


弹性计算集群管理

创建弹性计算集群

  1. 中找到“集群管理”(侧边栏),点击“创建集群”进行集群的创建。

    集群创建不需要付费,只有管理组/订阅/资源组的管理员可以创建。

  2. 创建集群时,可以直接绑定以购买的高性能AI计算节点,也可以直接关联已创建的工作空间。

    只有同在一个训练网内的节点可以被绑定到一个集群内,节点的训练网可以在节点列表中进行查看。

  3. 创建集群后,您可以在集群列表中看到对应集群的信息,也可以点击集群名称查看集群详情,可以在集群详情内修改绑定的节点或修改工作空间的关联情况。
  4. 在集群中被绑定的节点拥有两个标签:正常/异常,启用/禁用。
  5. 您可以在集群详情中查看集群资源的水位信息以及被任务预先占用的资源信息。

我们的任务调度系统会检测节点,若节点异常,那么它无法参与任务的调度。

启用和禁用则由集群管理员手动操作。被禁用的节点同样无法参与任务的调度。(点击集群名称可以查看集群详情,点击节点管理分页可以对节点进行启用禁用)

因此只有节点实例状态为正常,且在集群中的标签为正常和启用时,该节点才能参与任务的调度。



集群详情

  1. 基本信息:展示集群所在地区和可用区、集群状态信息、VPC、和支持的训练网类型;

  2. 关联工作空间:可快速将集群挂载在组织的工作空间;


集群水位

  1. 资源概览:展示集群中相关硬件资源的总量、已分配净值、实时使用率、和任务占比资源情况;

  2. 资源水位概览:支持展示小时、天、月维度的硬件资源使用占比情况;


集群节点管理

  1. 节点统计:方便用户查看集群中节点的健康情况,快速定位异常节点数量,和禁用节点数量;其中这里的正常和异常指的是物理节点是否出现了掉卡等情况导致调度器识别不到该节点,因此也没办法参与训练任务的调度。这个状态无法进行手动变更,需要反馈给技术支持人员。

  2. 节点视图: 支持节点卡片,和节点列表两种展示方式,可详细看到各节点的健康状态,资源分配占比;

  3. 节点禁用/移除/启用:根据节点健康状态,用户可手动移除或禁用异常节点,其中被禁用的节点不会参与训练任务的调度;

  4. 单节点监控:点击【更多-更多监控】操作按钮,可查看单节点下CPU、加速芯片、内存等的使用率;

  5. 单节点负载:点击【更多-查看负载】操作按钮,可查看单节点下启动的各Worker任务负载情况;

  6. 单节点事件:点击【更多-查看事件】操作按钮,可查看单节点的操作记录;





集群工作负载

不同任务类型在同一个集群中排队的,【工作负载】页面能帮助用户看到当前不同类型工作负载的排队情况;


集群开启闲时配额

定位

  • 面对高SLA业务,用户通过购买ACN节点构建AEC2集群,从云服务商锁定了资源;

  • 在高SLA业务有明显的波峰波谷情况下,将波谷时将资源分享给低SLA业务,并能及退还;

  • 保证业务可用性的同时,实现资源充分利用的资源运营目标,提升低优业务的资源供给。

使用

在集群管理界面打开闲时配额开关,并在仅Spot资源关联工作空间按钮处,将Spot资源关联到想要共享资源的工作空间。