本方案适用于AI图片训练场景,使用CPFS/NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。

实现的方式

  • 搭建AI图片训练基础环境。
  • 使用CPFS存储训练数据。
  • 使用飞天AI加速训练服务加速训练。
  • 使用Arena一键提交作业。

部署架构图

GPU AI模型训练最佳实践

选用的产品

  • GPU服务器

    GPU云服务器是基于GPU应用的计算服务,多适用于AI深度学习、视频处理、科学计算、图形可视化等应用场景。

    更多关于GPU服务器的介绍,请参见GPU服务器产品详情页

  • 文件存储NAS

    阿里云文件存储NAS是一个可共享访问、弹性扩展、高可靠、高性能的分布式文件系统。兼容POSIX文件接口,可支持数千台计算节点共享访问,可以挂载到弹性计算ECS、弹性裸金属服务器、容器服务ACK、弹性容器ECI、批量计算BCS、高性能计算EHPC、AI训练PAI等计算业务上提供高性能的共享存储,用户无需修改应用程序,即可无缝迁移业务系统上云。

    更多关于文件存储NAS的介绍,请参见文件存储NAS产品详情页

  • 文件存储CPFS

    文件存储CPFS(Cloud Parallel File Storage),是阿里云完全托管、可扩展的并行文件存储系统,针对高性能计算场景的性能要求进行了深度优化,提供对数据毫秒级的访问和高聚合IO、高IOPS的数据读写请求,可以用于AI深度训练、自动驾驶、基因计算、EDA仿真、石油勘探、气象分析、机器学习、大数据分析以及影视渲染等业务场景中。

    更多关于文件存储CPFS的介绍,请参见文件存储CPFS详情页

  • 容器服务 ACK

    容器服务Kubernetes版(ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。

    更多关于容器服务ACK的介绍,请参见容器服务 ACK产品详情页

详细信息

点击查看最佳实践详情

更多最佳实践

点击查看更多阿里云最佳实践