AI 算力池 SSP

AI 算力池 SSP(SenseScale AI Compute Platform)是面向企业级客户的 AI 算力平台,适配国内外主流异构算力,提供从交互式开发调试、大规模分布式训练到高效模型推理全生命周期管理能力。 深耕科研机构的前沿探索、互联网的规模化业务落地,以及具身智能等新兴赛道的创新实践,SSP依托于领先的异构混训技术、智能资源调度逻辑以及高效的K8s 容器架构,深度融合底层硬件与高性能网络,通过一站式控制台实现零门槛接入,为 AI 开发者构建稳定、高效、弹性的底层算力底座。

训推一体全生命周期 国产异构算力提效零门槛一站式 AI 服务
AI 算力池 SSP

产品优势

集云端研发、多元异构大规模混训与高效化治理于一体,让企业 AI 研发更高效、更低成本。

开箱即用的专业在线开发环境

预置多种镜像及组件包,实现开发环境分钟级快速构建与在线编码。支持本地与云端多种访问方式,实现端云协同开发;提供丰富的实例规格与算力灵活性,让开发者免受繁琐集群运维干扰,享受零门槛的一站式研发流程。

多元异构兼容的大规模分布式算力支撑

适配多款主流国产化算力芯片,具备多芯片大规模混训的成熟落地经验。支持主流训练框架与分布式任务零代码改造接入,配合专有和闲时队列的灵活切换,大幅削减底层适配周期与研发成本。

训推一体的全生命周期管理

打造从模型开发到应用构建的全链条一站式高效服务。平台支持模型多版本管理与跨可用区一键推理部署,打通研发到服务的无缝流转;内置企业级高性能推理部署框架,实现推理速率与吞吐性能的显著提升;深度融合国产主流异构算力芯片,凭借负载均衡与弹性调度等保障方案,有效降低推理成本并提升资产的利用效能。

产品功能

提供开发机全生命周期管理、分布式训练智能调度与多租户深度监控,全面打通 AI 训推全流程功能链路。

云端开发机生命周期与环境管理

提供开发机实例新建、开关机、重启及释放等全生命周期管理。实例创建时系统自动部署 WebIDE 与 Notebook 核心组件,内置丰富插件,带来随时随地的云端端云协同开发与即时调试体验。同时支持将运行中实例环境一键保存为自定义镜像并沉淀至内置 CCR 命名空间,供后续研发、训推场景快速复用,免去重复配置环境。

云端开发机生命周期与环境管理

分布式任务配置与智能调度

全面支持 PyTorch DDP、Ray、MPI、TensorFlow 等主流及自定义分布式训练框架,支持单/多副本任务配置并提供一键式角色划分。用户可通过控制台、SDK 或命令行一键提交任务,灵活自定义 GPU、vCPU 与内存规格,并支持显式指定或排除特定物理节点。内置任务自动重试机制,全方位保障长时长周期大规模作业的稳定性。

分布式任务配置与智能调度

多租户隔离、资源治理与深度监控

依托“集群-队列-空间”管理架构,打通 RDMA 网络并将节点划分为专有与闲时队列,通过工作空间统一关联资源与多租户成员,实现多角色权限隔离与多级调度。平台打通高性能文件存储 AFS 与对象存储 OSS,提供任务、Worker、GPU、网络等深度多维秒级监控与日志下载。内置智能自动终止策略,当资源利用率低于阈值时触发自动清理,并通过飞书、短信、邮件等多渠道全方位告警。

多租户隔离、资源治理与深度监控

模型高效部署与在线服务管理

支持多版本模型的统一资产管理,提供跨可用区的模型快捷推理部署与弹性服务化能力。平台内置企业级高性能推理部署框架,全面适配国产主流异构算力芯片;功能涵盖负载均衡、高并发流量控制、动态加载与弹性伸缩调度,确保推理大模型服务的持续高可用与稳定运行。

模型高效部署与在线服务管理

应用场景

覆盖从开发机模型调试、大规模分布式训练到高效模型推理的典型业务场景,实现 AI 研发与算力服务的全链路无缝衔接。

  • 模型开发调试与训推衔接

    开发者使用开发机挂载文件存储 AFS 进行模型调试与代码开发,调试完成后将环境保存为自定义镜像推送至 CCR;后续训练和推理任务可直接挂载同一 AFS、复用同一镜像,无需重复配置环境或迁移数据。从实验室原型到线上服务,环境一致性保障全链路复现。

  • 大规模分布式模型训练
  • 高效模型推理与服务化部署
模型开发调试与训推衔接

用AI大模型,找商汤大装置

开始使用