高性能AI算力池 ACP
高性能AI算力池 ACP(AI Compute Pool)是依托商汤多年研发与运营超大规模AI超级计算集群经验,打造的高性能、弹性扩展、安全稳定、智能调度的AI算力平台。提供给企业做大规模分布式训练的应用,支持Pytorch、MPI、TensorFlow、SenseParrots等多种训练框架,适配多种异构芯片,提供大规模并行训练加速、训练任务调试、故障发现与自愈、可观测全方位能力,保障训练任务全生命周期稳定性 ,助力AI业务增长。

高性能AI算力池 ACP(AI Compute Pool)是依托商汤多年研发与运营超大规模AI超级计算集群经验,打造的高性能、弹性扩展、安全稳定、智能调度的AI算力平台。提供给企业做大规模分布式训练的应用,支持Pytorch、MPI、TensorFlow、SenseParrots等多种训练框架,适配多种异构芯片,提供大规模并行训练加速、训练任务调试、故障发现与自愈、可观测全方位能力,保障训练任务全生命周期稳定性 ,助力AI业务增长。
专为AI应用打造的高效率、低成本和规模化的算力平台。
大规模分布式训练
训练效率加速优化
训练容错与恢复机制
全链路可视化监控和告警
模型训练、任务调试、任务监控、易用的可视化工具。
支持TensorFlow、PyTorch训练框架、MPI方式的单机和分布式训练任务以及各种角色的配置,支持按需创建训练任务以及管理任务各种状态操作;提供多种调度策略满足各种任务的高效低成本诉求;
通过 RDMA(IB/RoCE)或 TCP/IP 网络连接各个节点,实现资源池弹性扩展;
提供多种任务资源、业务指标的监控和日志服务,满足算法工程师在调试过程中运维诉求。
基于深度学习方法的、 计算机视觉应用模型训练、程序化交易NLP模型训练、AI药物研究。
AI训练使用高性能算力池提供的高性能GPU、高速网络和并行文件存储,支持大规模、高并发的任务创建和规模,满足算法工程对各类算力的诉求
深度学习定制存储、网络、计算以及任务调度器,配合丰富辅助的调试、可视化工具,带来高效、开发者友好的深度学习训练体验;