产品动态：

高性能AI算力池 ACP

高性能AI算力池 ACP（AI Compute Pool）是依托商汤多年研发与运营超大规模AI超级计算集群经验，打造的高性能、弹性扩展、安全稳定、智能调度的AI算力平台。提供给企业做大规模分布式训练的应用，支持Pytorch、MPI、TensorFlow、SenseParrots等多种训练框架，适配多种异构芯片，提供大规模并行训练加速、训练任务调试、故障发现与自愈、可观测全方位能力，保障训练任务全生命周期稳定性，助力AI业务增长。

大规模分布式训练训练容错与恢复机制全链路可视化监控和告警

联系销售

产品优势

专为AI应用打造的高效率、低成本和规模化的算力平台。

大规模分布式训练: 为模型训练专门打造的 RDMA（IB/RoCE）网络连接各个训练节点，实现训练网络高速通信，提升大规模分布式训练效率；

训练效率加速优化: 多环节网络和通信的优化，数据缓存和CheckPoint环节的IO优化，分钟级的故障定位和自动恢复策略，减少节点故障、通信异常等问题的恢复时间，提升任务的有效训练时间20%；

训练容错与恢复机制: 为了保障大规模分布式深度学习任务稳定运行，提供任务异常检测服务、训练任务容错重新调度和恢复服务、分布式训练任务高速checkpoint服务；

全链路可视化监控和告警: 支持任务、Worker和GPU多维度的监控日志和告警，具备故障发现和故障自愈能力；支持任务失败、成功和异常等状态的站内信、电话、短信、邮件、飞书等多种告警渠道；

产品功能

模型训练、任务调试、任务监控、易用的可视化工具。

支持多种框架的单机和分布式任务的生命周期管理

支持TensorFlow、PyTorch训练框架、MPI方式的单机和分布式训练任务以及各种角色的配置，支持按需创建训练任务以及管理任务各种状态操作；提供多种调度策略满足各种任务的高效低成本诉求

支持RDMA网络

通过 RDMA（IB/RoCE）或 TCP/IP 网络连接各个节点，实现资源池弹性扩展

支持任务的可观测性

提供多种任务资源、业务指标的监控和日志服务，满足算法工程师在调试过程中运维诉求。

应用场景

基于深度学习方法的、计算机视觉应用模型训练、程序化交易NLP模型训练、AI药物研究。

AI训练
AI训练使用高性能算力池提供的高性能GPU、高速网络和并行文件存储，支持大规模、高并发的任务创建和规模，满足算法工程对各类算力的诉求
深度学习定制存储、网络、计算以及任务调度器，配合丰富辅助的调试、可视化工具，带来高效、开发者友好的深度学习训练体验；

高性能AI算力池 ACP

支持多种框架的单机和分布式任务的生命周期管理

支持RDMA网络

支持任务的可观测性

AI训练

用AI大模型，找商汤大装置