本文以Ubuntu 18.04 64位为例,为您介绍如何安装和使用FastGPU构建一键训练任务。
前提条件
说明 您的ECS实例、本地机器和阿里云Cloud Shell工具等均可以作为客户端安装FastGPU来构建人工智能计算任务。
背景信息
FastGPU提供以下两套组件:
- 运行时组件ncluster:提供便捷的接口将线下的人工智能训练和推理脚本快速部署在阿里云的IaaS资源上,更多运行时组件使用说明请参见运行时组件ncluster说明。
- 命令行组件ecluster:提供便捷的命令行工具,用于管理阿里云上人工智能计算任务的运行状态和集群的生命周期,更多命令行组件使用说明请参见命令行组件ecluster说明。
安装FastGPU
- 在客户端下载FastGPU软件包。
wget https://ali-perseus-release.oss-cn-huhehaote.aliyuncs.com/fastgpu/ncluster-1.0.8-py3-none-any.whl
- 安装FastGPU。
pip install ncluster-1.0.8-py3-none-any.whl
运行FastGPU demo
目前,FastGPU为您提供以下三个训练场景demo,您可以根据需要前往GitHub下载。
- GTC-demo:PyTorch手势识别训练。
- InsightFace:MxNet人脸识别训练。
- Bert模型:TensorFlow语音识别训练。
以下操作以Bert模型为例,展示如何在Cloud Shell中使用FastGPU。demo中自动创建的实例规格为ecs.gn6v-c10g1.20xlarge(8卡V100机型),任务部署时间约2.5分钟,训练时长约11.5分钟,总共耗时约14分钟,训练精度达到0.88以上。