产品动态:新增沐曦C500加速卡、应用更新过程进度控制能力、训练监控指标丰富
查看详情托管 Kubernetes 服务 ECP
托管 Kubernetes 服务 ECP 是SenseCore 针对AI场景提供的全托管的 Kubernetes 服务,深度整合了自研高性能 RDMA 网络与 AOSS、AFS 存储生态。平台全面适配英伟达及多款国产异构芯片,屏蔽底层基础设施运维门槛,助力 AI 模型的高效开发、训练与推理部署。

产品动态:新增沐曦C500加速卡、应用更新过程进度控制能力、训练监控指标丰富
查看详情托管 Kubernetes 服务 ECP 是SenseCore 针对AI场景提供的全托管的 Kubernetes 服务,深度整合了自研高性能 RDMA 网络与 AOSS、AFS 存储生态。平台全面适配英伟达及多款国产异构芯片,屏蔽底层基础设施运维门槛,助力 AI 模型的高效开发、训练与推理部署。

多元算力支持,高效分配调度策略,极致算力利用,高可用模型部署
多种异构算力支持
资源闲置低
有效训练时间长
推理服务可用性强
支持高性能异构算力管理,训练任务容错加速和模型灵活部署能力
多种高性能CPU和GPU算力,搭配高性能 SSD存储,配备高吞吐低时延独立训练网络,RDMA数据网络,满足大模型的大算力要求

支持节点、集群、工作空间灵活分配,提供预付、按量多种资源使用方式,用户可根据需求灵活配置和分配资源

提供CheckPoint读写加速,通信优化,训练环境检测,任务健康检测,自动重试等多种训练优化能力,实现大规模高效长时稳定训练

丰富的健康检测手段,便捷的环境管理配置能力,可控的应用版本更新过程,多种服务暴露方案支持,灵活的弹性伸缩规则

为企业级用户提供模型训练加速,持续部署,算力和作业管理能力
多类型训练任务高性能、高效率,解放生产力
Pytorch、TensorFlow、SenseParrots多种训练框架
大规模训练加速,提升算力利用率
训练容错和故障定位,无值守长稳训练
云原生模型部署,提供安全、弹性、可靠推理服务
容器化无侵入的模型部署
弹性伸缩部署,兼顾服务可用性和算力消耗
持续部署平稳变更,保证服务可用性
灵活资源分配,智能调度策略,避免资源闲置
多团队资源共池管理,灵活划分集群分配
在线服务与离线任务共池混部
按优先级保证作业资源供给
