本文以Ubuntu 18.04 64位为例,为您介绍如何安装和使用FastGPU构建一键训练任务。

前提条件

客户端已安装Python 3.6或以上版本。
说明 您的ECS实例、本地机器和阿里云Cloud Shell工具等均可以作为客户端安装FastGPU来构建人工智能计算任务。

背景信息

FastGPU提供以下两套组件:
  • 运行时组件ncluster:提供便捷的接口将线下的人工智能训练和推理脚本快速部署在阿里云的IaaS资源上,更多运行时组件使用说明请参见运行时组件ncluster说明
  • 命令行组件ecluster:提供便捷的命令行工具,用于管理阿里云上人工智能计算任务的运行状态和集群的生命周期,更多命令行组件使用说明请参见命令行组件ecluster说明

安装FastGPU

  1. 在客户端下载FastGPU软件包。
    wget https://ali-perseus-release.oss-cn-huhehaote.aliyuncs.com/fastgpu/ncluster-1.0.8-py3-none-any.whl
  2. 安装FastGPU。
    pip install ncluster-1.0.8-py3-none-any.whl

运行FastGPU demo

目前,FastGPU为您提供以下三个训练场景demo,您可以根据需要前往GitHub下载。
  • GTC-demo:PyTorch手势识别训练。
  • InsightFace:MxNet人脸识别训练。
  • Bert模型:TensorFlow语音识别训练。

以下操作以Bert模型为例,展示如何在Cloud Shell中使用FastGPU。demo中自动创建的实例规格为ecs.gn6v-c10g1.20xlarge(8卡V100机型),任务部署时间约2.5分钟,训练时长约11.5分钟,总共耗时约14分钟,训练精度达到0.88以上。

  1. 打开Cloud Shell
    本次测试时,Cloud Shell中使用Ubuntu 18.04 64,且默认已安装FastGPU,您可以直接开始准备项目文件并运行任务。
  2. 准备项目文件。
    git clone https://github.com/aliyun/alibabacloud-aiacc-demo
  3. 进入任务脚本目录。
    cd alibabacloud-aiacc-demo/tensorflow/bert
  4. 运行任务脚本。
    python train_news_classifier.py
    运行任务时需要自动创建实例等资源,会提示涉及计费,请按提示确认继续。prompt-fee
    注意 您可以在任务完成后手动释放实例,避免任务完成后实例继续计费。
    脚本运行成功后显示如下图所示。training-complete
  5. 查看运行任务时自动创建的实例。
    ecluster ls
    ecluster-ls
  6. 登录实例查看训练过程日志。
    ecluster tmux task0.perseus-bert
    显示以下结果时,表明已完成训练。log