AI文件存储是一款可扩展的并行文件存储系统,针对GPU高性能计算场景优化,提供亚毫秒级的数据访问、满足高IOPS及高吞吐、低延时的数据读写请求,适用于AI训练、自动驾驶、视频渲染等高性能计算场景。

产品优势

极致的云盘性能,高可靠设计,管理方式丰富,弹性扩容,多方位满足业务需求。

简单易用

实现分钟级资源交付,弹性扩容和运维全自动化,自助式资源生命周期管理

安全可靠

物理级资源隔离,满足安全合规的要求,完善的监控服务

性能无损

具备物理服务器特征的同时,无虚拟化开销和性能损失,100%释放算力资源。支持高带宽、低时延云存储、云网络访问性能

大规模分布式训练

为模型训练专门打造的 RDMA(IB/RoCE)网络连接各个训练节点,实现训练网络高速通信,提升大规模分布式训练效率;

训练效率加速优化​

多环节网络和通信的优化,数据缓存和CheckPoint环节的IO优化,分钟级的故障定位和自动恢复策略,减少节点故障、通信异常等问题的恢复时间,提升任务的有效训练时间20%;

训练容错与恢复机制

为了保障大规模分布式深度学习任务稳定运行,提供任务异常检测服务、训练任务容错重新调度和恢复服务、分布式训练任务高速checkpoint服务;

产品功能

丰富的块存储产品类型,多元的存储特性,极致的存储性能。

高性能计算

裸金属兼具虚拟机的弹性和物理机的卓越性能,无虚拟化耗损,无性能损失,无资源争抢,且支持二次虚拟化;

高性能计算

兼容VPC网络

裸金属完全支持公有云VPC网络,可根据业务需求规划 VPC网络,与网络产品无缝互通,切实保障您云上资源使用中的便捷和安全;对于大模型训练场景,我们提供了NV A100-80g的高性能GPU服务器的租用;

兼容VPC网络

分钟级交付

支持分钟级别的资源交付,所有实例支持宕机迁移;

分钟级交付

支持WebShell访问实例

提供WebShell访问实例,维护和管理服务器,满足高度自主可控的开发和运维的场景诉求。

支持WebShell访问实例

支持多种框架的单机和分布式任务的生命周期管理

支持TensorFlow、PyTorch训练框架、MPI方式的单机和分布式训练任务以及各种角色的配置,支持按需创建训练任务以及管理任务各种状态操作;提供多种调度策略满足各种任务的高效低成本诉求;

支持多种框架的单机和分布式任务的生命周期管理

支持RDMA网络

通过 RDMA(IB/RoCE)或 TCP/IP 网络连接各个节点,实现资源池弹性扩展;

支持RDMA网络

应用场景

覆盖丰富的数据库、涵盖各行业应用场景。

  • 高性能AI训练

    针对超算、AI大模型训练、基因测序等场景,GPU计算型裸金属服务器满足高吞吐、低时延、高稳定的业务诉求

    弹性裸金属服务器具备物理机级别的完整处理器特性(例如Intel VT-x),以及物理机级别的资源隔离优势,特别适合上云部署传统非虚拟化场景的应用。

  • 大数据业务
  • AI训练
  • 科学计算
  • AI 训练和推理
  • 互联网业务
高性能AI训练

用AI大模型,找商汤大装置

开始使用