如何在多个GPU上进行分布式训练-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

人工智能已经进入到了提升、堆积算力的时代，除了硬件厂商在芯片设计、晶体管数量、3D等封装技术等方面不断改进外，似乎软件算法的改进进入到了瓶颈阶段，不过，在系统架构方面，一直存在着并行计算。特别是在用于机器学习、深度学习等方面的模型训练，GPU上的分布式训练对人工智能的算力提升有着很大的帮助。

为什么以及如何使用多个 GPU 进行分布式训练

大规模训练 AI 模型的数据科学家或机器学习爱好者将不可避免地达到上限。当数据集大小增加时，处理时间可能会从几分钟增加到几小时到几天到几周！数据科学家转向包含多个 GPU 以及机器学习模型的分布式训练，以在很短的时间内加速和开发完整的 AI 模型。我们将讨论 GPU 与 CPU 对机器学习的用处，为什么使用多个 GPU 进行分布式训练最适合大型数据集，以及如何开始使用最佳实践训练机器学习模型。

为什么 GPU 适合训练神经网络？

训练阶段是构建神经网络或机器学习模型中资源最密集的部分。神经网络在训练阶段需要数据输入。该模型基于数据集之间所做的更改，基于层中处理的数据输出相关预测。第一轮输入数据本质上形成了机器学习模型理解的基线；随后的数据集计算权重和参数以训练机器预测精度。

对于简单或少量的数据集，等待几分钟是可行的。然而，随着输入数据量的增加，训练时间可能会达到数小时、数天甚至更长。

CPU 难以处理大量数据，例如对数十万个浮点数的重复计算。而深度神经网络由矩阵乘法和向量加法等操作组成。

提高此过程速度的一种方法是使用多个 GPU 切换成分布式训练。基于分配给训练阶段的张量核心的数量，用于分布式训练的 GPU 可以比 CPU 更快地处理。

GPU 或图形处理单元最初设计用于处理重复计算，为视频游戏的图形推断和定位数十万个三角形。再加上大内存带宽和执行数百万次计算的先天能力，GPU 非常适合通过数百个 epoch（或模型迭代）进行神经网络训练所需的快速数据流，非常适合深度学习训练。

有关 GPU 如何更好地用于机器和深度学习模型的更多详细信息，请关注我们或者联系作者（微信同名）。

什么是机器学习中的分布式训练？

分布式训练承担训练阶段的工作量并将其分布在多个处理器上。这些微型处理器协同工作以加快训练过程，而不会降低机器学习模型的质量。由于数据被并行划分和分析，每个微型处理器在不同批次的训练数据上训练机器学习模型的副本。

结果在处理器之间进行通信（当批次完全完成时或每个处理器完成其批次时）。下一次迭代或 epoch 再次从一个稍微新训练的模型开始，直到它达到预期的结果。

在微型处理器（可能是 GPU）之间分配训练有两种最常见的方式：数据并行和模型并行。

数据并行

数据并行是数据的划分并将其分配给每个 GPU 以使用相同的 AI 模型进行评估。一旦所有 GPU 完成前向传递，它们就会输出梯度或模型的学习参数。由于有多个梯度只有 1 个 AI 模型要训练，所以梯度被编译、平均、减少到一个值，最终更新模型参数，用于下一个 epoch 的训练。这可以同步或异步完成。

同步数据并行是 GPU 分组必须等到所有其他 GPU 完成梯度计算，然后再进行平均，并减少它们以更新模型参数。一旦更新了参数，模型就可以继续下一个 epoch。

异步数据并行是 GPU 独立训练而无需执行同步梯度计算的地方。相反，梯度在完成时会传回参数服务器。每个 GPU 不等待另一个 GPU 完成计算，也不计算梯度平均，因此是异步的。异步数据并行需要一个单独的参数服务器用于模型的学习部分，因此成本更高。

在每一步之后计算梯度并对训练数据进行平均是最耗费计算的。由于它们是重复计算，因此 GPU 一直是加速此步骤以达到更快结果的选择。数据并行性相当简单且经济高效，但是有时模型太大而无法容纳在单个微型处理器上。

模型并行

与拆分数据相比，模型并行性在工作 GPU 之间拆分模型（或训练模型的工作负载）。分割模型将特定任务分配给单个工作单元或多个工作单元以优化 GPU 使用。模型并行可以被认为是一条人工智能装配线，它创建了一个多层网络，可以处理数据并行不可行的大型数据集。模型并行性需要专家来确定如何对模型进行分区，但会带来更好的使用和效率。

多 GPU 分布式训练更快吗？

购买多个 GPU 可能是一项昂贵的投资，但比其他选择要快得多。CPU 也很昂贵，不能像 GPU 那样扩展。跨多个层和多个 GPU 训练机器学习模型以进行分布式训练可提高训练阶段的生产力和效率。

当然，这意味着减少训练模型所花费的时间，但它也使您能够更快地产生（和重现）结果并在任何事情失控之前解决问题。在为您的努力产生结果方面，它是训练数周与数小时或数分钟训练之间的差异（取决于使用的 GPU 数量）。

您需要解决的下一个问题是如何开始在机器学习模型中使用多个 GPU 进行分布式训练

如何使用多个 GPU 进行训练？

如果想使用多个 GPU 处理分布式训练，首先要确定是否需要使用数据并行性或模型并行性。该决定将基于数据集的大小和范围。

能否让每个 GPU 使用数据集运行整个模型？或者在具有更大数据集的多个 GPU 上运行模型的不同部分是否会更省时？

通常，数据并行是分布式学习的标准选项。在深入研究需要单独的专用参数服务器的模型并行或异步数据并行之前，先从同步数据并行开始。

我们可以开始在分布式训练过程中将 GPU 链接在一起。根据并行决策分解数据。例如，可以使用当前数据批次（全局批次）并将其划分为八个子批次（本地批次）。如果全局批次有 512 个样本并且您有 8 个 GPU，则 8 个本地批次中的每一个都将包含 64 个样本。

八个 GPU 或迷你处理器中的每一个都独立运行本地批处理：前向传递、后向传递、输出权重梯度等。

局部梯度的权重修改在所有八个微型处理器中有效混合，因此一切都保持同步，并且模型已经适当训练（当使用同步数据并行时）。

重要的是要记住，一个用于分布式训练的 GPU 需要在训练阶段托管收集的数据和其他 GPU 的结果。如果不密切注意，可能会遇到一个 GPU 内存不足的问题。

除此之外，在考虑使用多个 GPU 进行分布式训练时，收益远远超过成本！最后，当你为模型选择正确的数据并行化时，每个 GPU 都会减少在训练阶段花费的时间、提高模型效率并产生更高端的结果。

分布式训练的价值

神经网络是高度复杂的技术，仅训练阶段就可能令人生畏。通过利用和了解更多关于如何利用额外的硬件在更短的时间内创建更有效的模型，数据科学可以改变我们的世界！如果可以在数周和数月而不是数月和数年的时间内创建更有效的神经网络时，用于分布式训练的 GPU 非常值得初始投资。

责编：Challey

阅读全文，请先

人工智能技术文章软件

您可能感兴趣

英伟达推出AI超级电脑Jetson Orin Nano Super，价格仅249美元

新款开发板售价仅为249美元，而上一代40 TOPS开发板售价为499美元，价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”，特别适合商业AI开发者、爱好者和学生使用。

【ICCAD2024】AI时代，先进数字芯片设计下的国产EDA新路径

面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战，国产EDA仍需不断探索和创新。

AWS计划追加100亿美元投资，在美国俄亥俄州扩建数据中心

近年来，AWS还积极投资于人工智能（AI）、机器学习（ML）、大数据分析和边缘计算等前沿技术，以保持其在这些领域的竞争优势。

美国计划推出“守门人”新规：简化AI芯片出口审批的同时，管制AI芯片出口

这一新规则可能会引起美国在世界各地的合作伙伴和盟友的重大担忧，以及一些国家的不满，担心美国会充当单方面仲裁者，决定谁可以获得对AI至关重要的先进芯片。

美国最高法院驳回英伟达上诉请求，被控诉涉嫌误导投资者

股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动，而非游戏销售，导致投资者对公司的盈利来源和风险敞口产生错误认知。

谷歌指控微软与OpenAI涉嫌垄断，要求FTC终止独家云服务协议

谷歌认为，这种独家协议可能会限制市场竞争，导致其他公司无法自由地使用OpenAI的技术，从而增加了用户面临额外成本的风险，比如数据迁移和员工培训等。

“一碰交互，共触未来”ITMA峰会盛大开启近场交互新生态

目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。

中科院微电子所在忆阻神经-模糊硬件及应用探索方面取得新进展

中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……

直角照明轻触开关为复杂电子应用提供定制性和多功能性

C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。

投身国产浪潮向上而行，英韧科技再获“中国芯”认可

项目动态|长飞先进武汉基地首批设备搬入

今日，长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办，长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言，厂房建设一般主要分为四个阶段：设备选型、设

18亿元！2大储能项目新动态

近期，多个储能电站项目上新。■ 乐山电力：募资2亿建200MWh储能电站12月17日晚，乐山电力（600644.SH）公告，以简易程序向特定对象发行A股股票申请已获上交所受理，募集资金总额为2亿元。发

94岁巴菲特公布后事安排！1500亿美元遗产，只留0.5%给子女？

投资界传奇人物沃伦·巴菲特，一位94岁的亿万富翁，最近公开了他的遗嘱。其中透露了一个惊人的决定：他计划将自己99.5%的巨额财富捐赠给慈善机构，而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭

iPhone17系列迎六年来首次设计大换代：回归铝合金背板

有博主基于曝光的信息绘制了iPhone 17系列渲染图，对比iPhone 16系列，17系列最大变化是采用横置相机模组，背部DECO为条形跑道设计，神似谷歌Pixel 9系列，这是iPhone六年来的

又输了！《黑神话：悟空》年度最佳PS5游戏败给《宇宙机器人》

2024年度PlayStation游戏奖今日公布，《宇宙机器人》获得年度最佳PS5游戏，《使命召唤：黑色行动6》获得年度最佳PS4游戏。在这次评选中，《宇宙机器人》获得多个奖项，包括最佳艺术指导奖、最

超60GW！飙升12倍，储能机会来了?

又一地，新型储能机会来了？■ 印度：2032储能增长12倍，超60GW据印度国家银行SBI报告，印度准备大幅提升能源存储容量，预计到2032财年将增长12 倍，超60GW左右。这也将超过可再生能源本身

巨头疲软行业内卷，极越为谁而“亡”？

在上海嘉定叶城路1688号的极越办公楼里，最显眼的位置上，写着一句话：“中国智能汽车史上，必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景，未曾想这原来是命运的嘲弄。毕竟，极越用一种极其荒唐的

还有38%的上涨空间！亚马逊AI战略大爆发

“ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ：AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益

极越之后，2025年最有可能死掉的4个新势力车企！

极越汽车闪崩，留下一地鸡毛，苦的是供应商和车主。很多人都在关心，下一个倒下的新能源汽车品牌，会是谁？我们都没有未卜先知的超能力，但可以借助数据管中窥豹。近日，有媒体统计了15家造车新势力的销量、盈亏情

“基因筛选式生娃”的马斯克：3任妻子，11个娃9个是试管，还在公司“选妃捐精”？

上个月，亿万富翁埃隆·马斯克谈到了年轻一代的生育问题。他强调生育的紧迫性，认为无论面临何种困难，生育后代都是必要的，否则人类可能会在无声中走向消亡。他认为人们对于生育的担忧有些过头，担心经济压力等问题

文章评论

最新
热门

换一换

EE直播

更多>

如何在多个GPU上进行分布式训练

杂志声明