基于 UAI-Train 平台的分布式训练

2023-10-31 18:20

本文主要是介绍基于 UAI-Train 平台的分布式训练,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在大型数据集上进行训练的现代神经网络架构,可以跨广泛的多种领域获取可观的结果,涵盖从图像识别、自然语言处理到欺诈检测和推荐系统等各个方面,但训练这些神经网络模型需要大量浮点计算能力。虽然,近年来 GPU 硬件算力和训练方法上均取得了重大进步,但在单一机器上,网络训练所需要的时间仍然长得不切实际,因此需要借助分布式 GPU 环境来提升神经网络训练系统的浮点计算能力。

TensorFlow 分布式训练

214935e67qmzopmjjujimx.png

TensorFlow 采用了数据流范式, 使用节点和边的有向图来表示计算。TensorFlow 需要用户静态声明这种符号计算图,并对该图使用复写和分区rewrite & partitioning,将其分配到机器上进行分布式执行。

215105fncntlhjvcapdrzp.png

TensorFlow 中的分布式机器学习训练使用了如图所示的参数服务器方法 。

Cluster、Job、Task

关于 TensorFlow 的分布式训练,主要概念包括 Cluster、Job、Task,其关联关系如下:

  • TensorFlow 分布式 Cluster 由多个 Task 组成,每个 Task 对应一个 train.Server 实例,作为 Cluster 的一个单独节点;
  • 多个相同作用的 Task 可以被划分为一个 Job,在分布式深度学习框架中我们一般把 Job 划分为 Parameter Server (PS)WorkerParameter Server Job 管理参数的存储和更新工作,而 Worker Job 运行 OPs,作为计算节点只执行计算密集型的 Graph 计算;
  • Cluster 中的 Task 会相对进行通信,以便进行状态同步、参数更新等操作,如果参数的数量过大,一台机器处理不了,这就要需要多个 Task。
TensorFlow 分布式计算模式
In-graph 模式

In-graph 模式,将模型计算图的不同部分放在不同的机器上执行。把计算从单机多 GPU 扩展到了多机多 GPU, 不过数据分发还是在一个节点。这样配置简单, 多机多 GPU 的计算节点只需进行 join 操作, 对外提供一个网络接口来接受任务。训练数据的分发依然在一个节点上, 把训练数据分发到不同的机器上, 将会影响并发训练速度。在大数据训练的情况下, 不推荐使用这种模式。

Between-graph 模式

Between-graph 模式下,数据并行,每台机器使用完全相同的计算图。训练的参数保存在参数服务器,数据不用分发,而是分布在各个计算节点自行计算, 把要更新的参数通知参数服务器进行更新。这种模式不需要再练数据的分发, 数据量在 TB 级时可以节省大量时间,目前主流的分布式训练模式以 Between-graph 为主。

参数更新方式

同步更新

各个用于并行计算的节点,计算完各自的 batch 后,求取梯度值,把梯度值统一送到 PS 参数服务机器中,并等待 PS 更新模型参数。PS 参数服务器在收集到一定数量计算节点的梯度后,求取梯度平均值,更新PS参数服务器上的参数,同时将参数推送到各个 worker 节点。

异步更新

PS 参数服务器只要收到一台机器的梯度值,就直接进行参数更新,无需等待其它机器。这种迭代方法比较不稳定,因为当 A 机器计算完更新了 PS 参数服务器中的参数,可能 B 机器还是在用上一次迭代的旧版参数值。

分布式训练步骤

  1. 命令行参数解析,获取集群的信息 ps_hosts 和 worker_hosts,以及当前节点的角色信息 job_name 和 task_index
  2. 创建当前 Task 结点的 Server
     
    1. cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker": worker_hosts})
    2. server = tf.train.Server(cluster, job_name=FLAGS.job_name, task_index=FLAGS.task_index)
  3. 如果当前节点是Parameter Server,则调用join()无休止等待;如果是Worker,则执行下一步
     
    1. if FLAGS.job_name == "ps":
    2. server.join()
  4. 构建要训练的模型
     
    1. # build tensorflow graph model
  5. 创建 train.Supervisor 来管理模型的训练过程
     
    1. # Create a "supervisor", which oversees the training process.
    2. sv = tf.train.Supervisor(is_chief=(FLAGS.task_index == 0), logdir="/tmp/train_logs")
    3. # The supervisor takes care of session initialization and restoring from a checkpoint.
    4. sess = sv.prepare_or_wait_for_session(server.target)
    5. # Loop until the supervisor shuts down
    6. while not sv.should_stop()
    7. # train model

UAI-Train 分布式训练部署

UCloud AI 训练服务(UCloud AI Train)是面向 AI 训练任务的大规模分布式计算平台,基于高性能 GPU 计算节点提供一站式托管 AI 训练任务服务。用户在提交 AI 训练任务后,无需担心计算节点调度、训练环境准备、数据上传下载以及容灾等问题。

目前,UAI-Train 平台支持 TensorFlow 和 MXNet 框架的分布式训练。需要将 PS 代码和 Worker 代码实现在同一个代码入口中,执行过程中,PS 和 Worker 将使用相同的 Docker 容器镜像和相同的 Python 代码入口进行执行,系统将自动生成 PS 和 Worker 的 env 环境参数。TensorFlow 分布式训练采用 PS-Worker 的分布式格式,并提供 Python 的接口运行分布式训练。

215923iopdloqoctlfyq3r.png

UAI-Train 分布式训练采用 Parameter Server 和 Worker 混合部署的方法,所有计算节点均由 GPU 物理云主机组成。PS 仅使用 CPU 进行计算,Worker 则同时使用 GPU 和 CPU 进行计算,PS 和 Worker 的比例为 1:1。

215935ks4dru1d1zdjgymj.png

数据存储

分布式训练所使用的输入数据可以来自不同的数据源,目前 UAI-Train 仅支持 UFS 作为数据的存储。

Input 数据存储

指定一个 UFS 网盘作为 Input 数据源,UAI-Train 平台在训练执行过程中会将对应的 UFS 数据映射到训练执行的 Worker 容器的 /data/data 目录下,系统会自动将数据映射到执行的容器中,如 ip:/xxx/data/imagenet/tf → /data/data/。

Output 数据存储

指定一个 UFS 网盘作为 output 数据源,UAI-Train 平台在训练执行过程中会将对应的 UFS 数据映射到训练执行的每一个 PS 容器和 Worker 容器的 /data/output 目录下,并以共享的方式访问同一份数据。同时,在训练过程,可以通过其它云主机实时访问训练保存的模型 checkpoint。

案例分析:通过 CIFAR-10 进行图像识别

CIFAR-10 是机器学习中常见的图像识别数据集,该数据集共有 60000 张彩色图像。这些图像分为 10 个类,每类 6000 张图,有 50000 张用于训练,另外 10000 用于测试。

http://groups.csail.mit.edu/vision/TinyImages/

220012jgsx3ktm3kei3teu.jpg

调整训练代码

为了在 UAI 平台上进行训练,首先下载源代码,并对 cifar10_main.py 做如下修改:

  1. 添加相关参数:--data_dir、 --output_dir、 --work_dir、 --log_dir、 --num_gpu,UAI-Train 平台将会自动生成这些参数;
  2. 在代码中增加 UAI 参数:使用 data_dir 配置输入文件夹、使用 output_dir 配置输出文件夹。

具体案例代码可以在 https://github.com/ucloud/uai-sdk/tree/master/examples/tensorflow/train/cifar 获取。

在 UAI-Train 平台执行训练

  1. 根据 https://github.com/tensorflow/models/tree/master/tutorials/image/cifar10_estimator 的说明生成 CIFAR-10 的 tfrecords;
  2. 使用 UAI-SDK 提供的 Python 生成 CIFAR-10 样例的 Docker 镜像;
  3. 确保 Docker 镜像已经上传至 UHub,在 UAI-Train 平台上执行。
 
  1. /data/cifar10_main.py --train-batch-size=16

在 UAI 平台上的分布式训练

CIFAR-10 样例代码使用 tf.estimator.Estimator API,只需一个分布式环境和分布式环境配置,便可直接进行分布式训练,该配置需要适用于 tf.estimator.Estimator API 的标准,即定义一个 TF_CONFIG 配置。

 
  1. TF_CONFIG = {
  2. "cluster":{
  3. "master":["ip0:2222"],
  4. "ps":["ip0:2223","ip1:2223"],
  5. "worker":["ip1:2222"]},
  6. "task":{"type":"worker","index":0},
  7. "environment":"cloud"
  8. }

UAI-Train 平台的分布式训练功能可以自动生成 TensorFlow 分布式训练的 GPU 集群环境,同时为每个训练节点自动生成TF_CONFIG。因此,在 UAI-Train 平台上执行 CIFAR-10 的分布式训练和单机训练一样,仅需要指定 input/output 的 UFS 地址并执行如下指令即可:

 
  1. /data/cifar10_main.py --train-batch-size=16

总结

UAI-Train TensorFlow 的分布式训练环境实现基于 TensorFlow 的分布式训练系统实现,采用默认的 gRPC 协议进行数据交换。PS 和 Worker 采用混合部署的方式部署,PS 使用纯 CPU 计算,Worker 使用 GPU+CPU 计算。

在 UAI-Train 平台中可以非常方便的开展分布式计算,提高效率、压缩训练时间。最后通过 CIFAR-10 案例解析在 UAI-Train 平台上进行训练所需作出的修改,并在 UAI-Train 平台上进行分布式训练。


原文发布时间为:2018-05-24

本文来自云栖社区合作伙伴“Linux中国开源社区”,了解相关信息可以关注“Linux中国开源社区”。

这篇关于基于 UAI-Train 平台的分布式训练的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/317218

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

如何解决线上平台抽佣高 线下门店客流少的痛点!

目前,许多传统零售店铺正遭遇客源下降的难题。尽管广告推广能带来一定的客流,但其费用昂贵。鉴于此,众多零售商纷纷选择加入像美团、饿了么和抖音这样的大型在线平台,但这些平台的高佣金率导致了利润的大幅缩水。在这样的市场环境下,商家之间的合作网络逐渐成为一种有效的解决方案,通过资源和客户基础的共享,实现共同的利益增长。 以最近在上海兴起的一个跨行业合作平台为例,该平台融合了环保消费积分系统,在短

Android平台播放RTSP流的几种方案探究(VLC VS ExoPlayer VS SmartPlayer)

技术背景 好多开发者需要遴选Android平台RTSP直播播放器的时候,不知道如何选的好,本文针对常用的方案,做个大概的说明: 1. 使用VLC for Android VLC Media Player(VLC多媒体播放器),最初命名为VideoLAN客户端,是VideoLAN品牌产品,是VideoLAN计划的多媒体播放器。它支持众多音频与视频解码器及文件格式,并支持DVD影音光盘,VCD影

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud

业务协同平台--简介

一、使用场景         1.多个系统统一在业务协同平台定义协同策略,由业务协同平台代替人工完成一系列的单据录入         2.同时业务协同平台将执行任务推送给pda、pad等执行终端,通知各人员、设备进行作业执行         3.作业过程中,可设置完成时间预警、作业节点通知,时刻了解作业进程         4.做完再给你做过程分析,给出优化建议         就问你这一套下

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX