Slurm兼容工具 SCC

SLURM兼容工具(SCC),为AI开发者提供了一个与SLURM语法兼容的CLI工具,帮助AI开发者在用户习惯最少量改动的情况下,无需yaml文件的编写或复杂参数的配置,可直接使用Slurm的命令行、或类Slurm的命令行来对SenseCore的AI算力池进行任务的发起、管理,节点资源的查看等行为,使用户的迁移成本最小化,从而让研究员平滑完成大规模集群资源管理系统的过渡,最大化地享受优化后工业级大规模算力管理系统的优质体验

Slurm兼容工具 SCC

产品优势

保留SLURM命令特色,兼顾容器化分布式优势,提供极致系统兼容体验。

兼容Slurm命令行

支持用户直接使用slurm原生或类slurm的命令行,如srun、scontrol、scancel、squeue,sinfo等命令进行任务的发起和管理

享受容器技术特色优势

支持用户发起的任务作业享受容器化的分布式架构所带来的部署易用性、环境一致性、可观察性等,基于现代化的大规模集群资源管理系统,在资源隔离和资源利用上有明显提升

无需复杂配置

在AI云开发机内自动集成内置命令行,用户无需复杂配置,在使用命令行界面发起相关请求时,自动触发封装请求

精简易用,快速上手

用户无需学习基于k8s架构的相关命令行语法,免去yaml文件中复杂参数的编写,通过类slurm命令行的进行简单的参数配置,就可以完成脚本编写和请求

产品功能

对用户提交的类Slurm命令行进行解析封装,提交至高性能AI算力池。

提交训练任务

支持用户基于Srun的命令行形式发起不同框架的训练任务,并配置所需要的资源规格数量,以指定的方式返回结果;

提交训练任务

训练任务管理

支持用户基于scontrol,scancel等命令行内容,对已提交的任务查看详情,并对其进行取消等操作行为;

训练任务管理

集群资源查看

支持用户基于sinfo,squeue等命令行内容,对可用的集群工作空间资源,当前用户的任务排队情况进行综合查看。

集群资源查看

应用场景

大规模集群资源管理使用,发起多机多卡分布式训练。

  • 大规模分布式训练

    用户可基于slurm的命令行语法,配置资源规格和节点数量,发起分布式训练任务,并基于返回结果进行解析。

    CLI前端构建命令,对用户选项、参数进行校验。

    CLI后端转换封装构建请求体并发送,格式化输出。

  • 大规模集群资源管理
大规模分布式训练

用AI大模型,找商汤大装置

开始使用