秒级创建

全托管 k8s 产品,支持集群秒级弹性创建,节点池免用户运维

训推一体

发布 ATE 训练引擎,为企业做大规模分布式训练提供并行训练加速优化、故障诊断、异构混训等能力

Region 级 100Gb 网络

Region 级 VPC 可提供 100Gb 级别跨 AZ 网络带宽,提供自定义子网、路由表、NAT 网关、ACL 等能力

us 级时延

训练网 us 级时延,最大 3.2Tbps 吞吐

一站式平台

一站式训练、推理、开发能力整合企业级资源和权限管理,支持企业进行精细化资源规划和权限管控

长稳训练

为大规模分布式训练提供并行训练加速优化、故障诊断、异构混训等关键能力, 为长稳训练提供坚实保障

200W iops

文件存储高性能版本在保证 200W iops/PB 的前提下

160GB 吞吐

高效版本在保证 100W iops/PB 的前提下

应用场景

大模型训练
弹性推理应用
模型开发调试
大模型训练

支持万卡集群、多种异构芯片、混合训练

客户案例

客户A
客户 A 需要在一个月内完成一套私有化平台建设投入生产使用,并使用多种异构芯片混合训练。 在此项目中,SenseCore 2.0 在充分发挥了大小同构的技术优势,即无论大规模公有云集群还是小规模私有化部署都可以用一套产品技术方案;同时又具备优秀的扩展性和异构纳管能力,可按需纳管各类异构 GPU 芯片。 同时,凭借 SenseCore 深厚的技术沉淀,在极短时间内实现了多种异构芯片联合混训的方案,以产品化方式提供了用户。最终 Sensecore 平台帮助用户在规定时间内完成了重要的科研项目攻坚。
客户B
客户 B 希望从原有千卡集群升级到两千卡集群运行更大规模的训练任务。针对本次迁移客户主要有两个顾虑: 1. 集群规模翻倍,稳定性是否可以保持 2. RDMA 网络从 IB 升级到 RoCE,性能是否可以达标 SenseCore 2.0 在设计中就充分考虑了集群的规模和稳定性问题,提供全方位、多层级的软硬件故障诊断与运维能力,在交付集群之前经过多轮筛查压测将故障率快速收敛,配合训练容错功能,客户实际使用中可以实现长稳训练不中断,且 MFU 一直处于稳定的 30%+ 水平。 另外在训练网性能对比部分,客户最关心的 DeepEP 性能在 RoCE 验证结果整体略优于 IB 网络,超过客户预期。充分证明了 SenseCore 2.0 对于新技术的快速适配与调优能力。

下一代训推一体的 AI Infra,可靠、弹性、高性能

联系销售