安装并使用FastGPU构建一键训练任务 - GPU云服务器 - 云产品知识

本文以Ubuntu 18.04 64位为例，为您介绍如何安装和使用FastGPU构建一键训练任务。

前提条件

客户端已安装Python 3.6或以上版本。

说明您的ECS实例、本地机器和阿里云Cloud Shell工具等均可以作为客户端安装FastGPU来构建人工智能计算任务。

FastGPU提供以下两套组件：

运行时组件ncluster：提供便捷的接口将线下的人工智能训练和推理脚本快速部署在阿里云的IaaS资源上，更多运行时组件使用说明请参见运行时组件ncluster说明。
命令行组件ecluster：提供便捷的命令行工具，用于管理阿里云上人工智能计算任务的运行状态和集群的生命周期，更多命令行组件使用说明请参见命令行组件ecluster说明。

在客户端下载FastGPU软件包。

wget https://ali-perseus-release.oss-cn-huhehaote.aliyuncs.com/fastgpu/ncluster-1.0.8-py3-none-any.whl

安装FastGPU。

pip install ncluster-1.0.8-py3-none-any.whl

目前，FastGPU为您提供以下三个训练场景demo，您可以根据需要前往GitHub下载。

以下操作以Bert模型为例，展示如何在Cloud Shell中使用FastGPU。demo中自动创建的实例规格为ecs.gn6v-c10g1.20xlarge（8卡V100机型），任务部署时间约2.5分钟，训练时长约11.5分钟，总共耗时约14分钟，训练精度达到0.88以上。

打开Cloud Shell。
本次测试时，Cloud Shell中使用Ubuntu 18.04 64，且默认已安装FastGPU，您可以直接开始准备项目文件并运行任务。

准备项目文件。

git clone https://github.com/aliyun/alibabacloud-aiacc-demo

进入任务脚本目录。

cd alibabacloud-aiacc-demo/tensorflow/bert