高性能AI算力池 ACP
高性能AI算力池 ACP(AI Compute Pool)是依托商汤多年研发与运营超大规模AI超级计算集群经验,打造的高性能、弹性扩展、安全稳定、智能调度的AI算力平台。提供给企业做大规模分布式训练的应用,支持Pytorch、MPI、TensorFlow、SenseParrots等多种训练框架,适配多种异构芯片,提供大规模并行训练加速、训练任务调试、故障发现与自愈、可观测全方位能力,保障训练任务全生命周期稳定性 ,助力AI业务增长。
大规模分布式训练训练容错与恢复机制全链路可视化监控和告警






