产品动态：

AI 算力池 SSP

AI 算力池 SSP（SenseScale AI Compute Platform）是面向企业级客户的 AI 算力平台，适配国内外主流异构算力，提供从交互式开发调试、大规模分布式训练到高效模型推理全生命周期管理能力。深耕科研机构的前沿探索、互联网的规模化业务落地，以及具身智能等新兴赛道的创新实践，SSP依托于领先的异构混训技术、智能资源调度逻辑以及高效的K8s 容器架构，深度融合底层硬件与高性能网络，通过一站式控制台实现零门槛接入，为 AI 开发者构建稳定、高效、弹性的底层算力底座。

训推一体全生命周期国产异构算力提效零门槛一站式 AI 服务

产品优势

集云端研发、多元异构大规模混训与高效化治理于一体，让企业 AI 研发更高效、更低成本。

开箱即用的专业在线开发环境: 预置多种镜像及组件包，实现开发环境分钟级快速构建与在线编码。支持本地与云端多种访问方式，实现端云协同开发；提供丰富的实例规格与算力灵活性，让开发者免受繁琐集群运维干扰，享受零门槛的一站式研发流程。

多元异构兼容的大规模分布式算力支撑: 适配多款主流国产化算力芯片，具备多芯片大规模混训的成熟落地经验。支持主流训练框架与分布式任务零代码改造接入，配合专有和闲时队列的灵活切换，大幅削减底层适配周期与研发成本。

训推一体的全生命周期管理: 打造从模型开发到应用构建的全链条一站式高效服务。平台支持模型多版本管理与跨可用区一键推理部署，打通研发到服务的无缝流转；内置企业级高性能推理部署框架，实现推理速率与吞吐性能的显著提升；深度融合国产主流异构算力芯片，凭借负载均衡与弹性调度等保障方案，有效降低推理成本并提升资产的利用效能。

产品功能

提供开发机全生命周期管理、分布式训练智能调度与多租户深度监控，全面打通 AI 训推全流程功能链路。

云端开发机生命周期与环境管理

提供开发机实例新建、开关机、重启及释放等全生命周期管理。实例创建时系统自动部署 WebIDE 与 Notebook 核心组件，内置丰富插件，带来随时随地的云端端云协同开发与即时调试体验。同时支持将运行中实例环境一键保存为自定义镜像并沉淀至内置 CCR 命名空间，供后续研发、训推场景快速复用，免去重复配置环境。

分布式任务配置与智能调度

全面支持 PyTorch DDP、Ray、MPI、TensorFlow 等主流及自定义分布式训练框架，支持单/多副本任务配置并提供一键式角色划分。用户可通过控制台、SDK 或命令行一键提交任务，灵活自定义 GPU、vCPU 与内存规格，并支持显式指定或排除特定物理节点。内置任务自动重试机制，全方位保障长时长周期大规模作业的稳定性。

多租户隔离、资源治理与深度监控

依托“集群-队列-空间”管理架构，打通 RDMA 网络并将节点划分为专有与闲时队列，通过工作空间统一关联资源与多租户成员，实现多角色权限隔离与多级调度。平台打通高性能文件存储 AFS 与对象存储 OSS，提供任务、Worker、GPU、网络等深度多维秒级监控与日志下载。内置智能自动终止策略，当资源利用率低于阈值时触发自动清理，并通过飞书、短信、邮件等多渠道全方位告警。

模型高效部署与在线服务管理

支持多版本模型的统一资产管理，提供跨可用区的模型快捷推理部署与弹性服务化能力。平台内置企业级高性能推理部署框架，全面适配国产主流异构算力芯片；功能涵盖负载均衡、高并发流量控制、动态加载与弹性伸缩调度，确保推理大模型服务的持续高可用与稳定运行。

应用场景

覆盖从开发机模型调试、大规模分布式训练到高效模型推理的典型业务场景，实现 AI 研发与算力服务的全链路无缝衔接。

模型开发调试与训推衔接
开发者使用开发机挂载文件存储 AFS 进行模型调试与代码开发，调试完成后将环境保存为自定义镜像推送至 CCR；后续训练和推理任务可直接挂载同一 AFS、复用同一镜像，无需重复配置环境或迁移数据。从实验室原型到线上服务，环境一致性保障全链路复现。
大规模分布式模型训练
面向百亿参数级大模型预训练、高并发在线模型的持续迭代等场景，算法工程师可发起单机多卡或多机多卡的大规模深度学习训练。面对海量数据时，用户通过一键提交分布式任务，即可在多团队隔离的算力池中自动完成跨节点芯片的组网与算力调度，并依靠底层的自动重试容错机制，保障长周期训练作业在异构集群中稳定运行至收敛。
高效模型推理与服务化部署
面向在线业务部署场景，支持将训练完成的模型快速发布为推理服务。系统可根据业务负载灵活调度算力资源，在保障服务稳定性的同时提升资源利用效率；推理环境可直接继承训练环节的配置，实现训推无缝衔接，加速模型从实验室到生产环境的落地进程。

AI 算力池 SSP

云端开发机生命周期与环境管理

分布式任务配置与智能调度

多租户隔离、资源治理与深度监控

模型高效部署与在线服务管理

模型开发调试与训推衔接

大规模分布式模型训练

高效模型推理与服务化部署

用AI大模型，找商汤大装置