人工智能已经进入到了提升、堆积算力的时代,除了硬件厂商在芯片设计、晶体管数量、3D等封装技术等方面不断改进外,似乎软件算法的改进进入到了瓶颈阶段,不过,在系统架构方面,一直存在着并行计算。特别是在用于机器学习、深度学习等方面的模型训练,GPU上的分布式训练对人工智能的算力提升有着很大的帮助。

人工智能已经进入到了提升、堆积算力的时代,除了硬件厂商在芯片设计、晶体管数量、3D等封装技术等方面不断改进外,似乎软件算法的改进进入到了瓶颈阶段,不过,在系统架构方面,一直存在着并行计算。特别是在用于机器学习、深度学习等方面的模型训练,GPU上的分布式训练对人工智能的算力提升有着很大的帮助。

为什么以及如何使用多个 GPU 进行分布式训练

大规模训练 AI 模型的数据科学家或机器学习爱好者将不可避免地达到上限。当数据集大小增加时,处理时间可能会从几分钟增加到几小时到几天到几周!数据科学家转向包含多个 GPU 以及机器学习模型的分布式训练,以在很短的时间内加速和开发完整的 AI 模型。我们将讨论 GPU 与 CPU 对机器学习的用处,为什么使用多个 GPU 进行分布式训练最适合大型数据集,以及如何开始使用最佳实践训练机器学习模型。

为什么 GPU 适合训练神经网络?

训练阶段是构建神经网络或机器学习模型中资源最密集的部分。神经网络在训练阶段需要数据输入。该模型基于数据集之间所做的更改,基于层中处理的数据输出相关预测。第一轮输入数据本质上形成了机器学习模型理解的基线;随后的数据集计算权重和参数 以训练机器预测精度。

对于简单或少量的数据集,等待几分钟是可行的。然而,随着输入数据量的增加,训练时间可能会达到数小时、数天甚至更长。

CPU 难以处理大量数据,例如对数十万个浮点数的重复计算。而深度神经网络由矩阵乘法和向量加法等操作组成。

提高此过程速度的一种方法是使用多个 GPU 切换成分布式训练。基于分配给训练阶段的张量核心的数量,用于分布式训练的 GPU 可以比 CPU 更快地处理。

GPU 或图形处理单元最初设计用于处理重复计算,为视频游戏的图形推断和定位数十万个三角形。再加上大内存带宽和执行数百万次计算的先天能力,GPU 非常适合通过数百个 epoch(或模型迭代)进行神经网络训练所需的快速数据流,非常适合深度学习训练。

有关 GPU 如何更好地用于机器和深度学习模型的更多详细信息,请关注我们或者联系作者(微信同名)。

什么是机器学习中的分布式训练?

分布式训练承担训练阶段的工作量并将其分布在多个处理器上。这些微型处理器协同工作以加快训练过程,而不会降低机器学习模型的质量。由于数据被并行划分和分析,每个微型处理器在不同批次的训练数据上训练机器学习模型的副本。

结果在处理器之间进行通信(当批次完全完成时或每个处理器完成其批次时)。下一次迭代或 epoch 再次从一个稍微新训练的模型开始,直到它达到预期的结果。

在微型处理器(可能是 GPU)之间分配训练有两种最常见的方式:数据并行和模型并行。

数据并行

数据并行是数据的划分并将其分配给每个 GPU 以使用相同的 AI 模型进行评估。一旦所有 GPU 完成前向传递,它们就会输出梯度或模型的学习参数。由于有多个梯度只有 1 个 AI 模型要训练,所以梯度被编译、平均、减少到一个值,最终更新模型参数,用于下一个 epoch 的训练。这可以同步或异步完成。

同步数据并行是 GPU 分组必须等到所有其他 GPU 完成梯度计算,然后再进行平均,并减少它们以更新模型参数。一旦更新了参数,模型就可以继续下一个 epoch。

异步数据并行是 GPU 独立训练而无需执行同步梯度计算的地方。相反,梯度在完成时会传回参数服务器。每个 GPU 不等待另一个 GPU 完成计算,也不计算梯度平均,因此是异步的。异步数据并行需要一个单独的参数服务器用于模型的学习部分,因此成本更高。

在每一步之后计算梯度并对训练数据进行平均是最耗费计算的。由于它们是重复计算,因此 GPU 一直是加速此步骤以达到更快结果的选择。数据并行性相当简单且经济高效,但是有时模型太大而无法容纳在单个微型处理器上。

模型并行

与拆分数据相比,模型并行性在工作 GPU 之间拆分模型(或训练模型的工作负载)。分割模型将特定任务分配给单个工作单元或多个工作单元以优化 GPU 使用。模型并行可以被认为是一条人工智能装配线,它创建了一个多层网络,可以处理数据并行不可行的大型数据集。模型并行性需要专家来确定如何对模型进行分区,但会带来更好的使用和效率。

 GPU 分布式训练更快吗?

购买多个 GPU 可能是一项昂贵的投资,但比其他选择要快得多。CPU 也很昂贵,不能像 GPU 那样扩展。跨多个层和多个 GPU 训练机器学习模型以进行分布式训练可提高训练阶段的生产力和效率。

当然,这意味着减少训练模型所花费的时间,但它也使您能够更快地产生(和重现)结果并在任何事情失控之前解决问题。在为您的努力产生结果方面,它是训练数周与数小时或数分钟训练之间的差异(取决于使用的 GPU 数量)。

您需要解决的下一个问题是如何开始在机器学习模型中使用多个 GPU 进行分布式训练

如何使用多个 GPU 进行训练?

如果想使用多个 GPU 处理分布式训练,首先要确定是否需要使用数据并行性模型并行性。该决定将基于数据集的大小和范围。

能否让每个 GPU 使用数据集运行整个模型?或者在具有更大数据集的多个 GPU 上运行模型的不同部分是否会更省时?

通常,数据并行是分布式学习的标准选项。在深入研究需要单独的专用参数服务器的模型并行或异步数据并行之前,先从同步数据并行开始。

我们可以开始在分布式训练过程中将 GPU 链接在一起。根据并行决策分解数据。例如,可以使用当前数据批次(全局批次)并将其划分为八个子批次(本地批次)。如果全局批次有 512 个样本并且您有 8 个 GPU,则 8 个本地批次中的每一个都将包含 64 个样本。

八个 GPU 或迷你处理器中的每一个都独立运行本地批处理:前向传递、后向传递、输出权重梯度等。

局部梯度的权重修改在所有八个微型处理器中有效混合,因此一切都保持同步,并且模型已经适当训练(当使用同步数据并行时)。

重要的是要记住,一个用于分布式训练的 GPU 需要在训练阶段托管收集的数据和其他 GPU 的结果。如果不密切注意,可能会遇到一个 GPU 内存不足的问题。

除此之外,在考虑使用多个 GPU 进行分布式训练时,收益远远超过成本!最后,当你为模型选择正确的数据并行化时,每个 GPU 都会减少在训练阶段花费的时间、提高模型效率并产生更高端的结果。

分布式训练的价值

神经网络是高度复杂的技术,仅训练阶段就可能令人生畏。通过利用和了解更多关于如何利用额外的硬件在更短的时间内创建更有效的模型,数据科学可以改变我们的世界!如果可以在数周和数月而不是数月和数年的时间内创建更有效的神经网络时,用于分布式训练的 GPU 非常值得初始投资。

 

责编:Challey
阅读全文,请先
您可能感兴趣
Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
2016-2023年中国独角兽企业总估值由近5000亿美元持续攀升至超1.2万亿美元,其中在2020年首破万亿美元。
HBM4作为第六代HBM芯片,不仅在能效上较现有型号提升40%,延迟也降低了10%,成为各大芯片厂商竞相追逐的焦点。
尽管CMA批准了交易,但业内专家指出,微软通过此次交易获得了Inflection AI的核心技术和团队,这相当于以较低的成本实现了对Inflection AI的变相收购,进一步加强了微软在AI领域的实力。
OpenAI认为,在美国建设更多基础设施对于推进人工智能并使其优势广泛普及至关重要。
英伟达的CUDA生态系统和高性能AI GPU仍将作为核心竞争力,但要支撑其像以往那样的飞速的发展态势,必然要面临更大的挑战,或者已到增长的天花板。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
点击蓝字 关注我们德州仪器全球团队坚持克服挑战,为电源模块开发新的 MagPack™ 封装技术,这是一项将帮助推动电源设计未来的突破性技术。  ■ ■ ■作为一名经验丰富的马拉松运动员,Kenji K
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
周二,捷普科技(Jabil)官员与印度泰米尔纳德邦代表团在泰米尔纳德邦首席部长MK Stalin的见证下,签署了一份备忘录。MK Stalin正在美国进行为期17天的访问,旨在吸引新的投资。MK St
据市场调查机构Allied Market Research的《单晶硅晶圆市场》报告指出,2022年单晶硅晶圆市场价值为109亿美元,预计到2032年将达到201亿美元,2023年~2032年的复合年均
近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
疫情后的劳动力囤积和强有力的员工保护规则掩盖了德国高薪制造业工作市场令人担忧的变化。根据联邦劳工办公室的数据,欧元区最大经济体德国的失业率在2019年春季曾达到历史最低点4.9%,现已上升至6%。虽然
点击蓝字 关注我们准确的图像深度和细节对于安保摄像头、人脸识别设备和机器视觉设备至关重要,可以提供更真实且高保真的观看体验。为在具体应用中达到这一效果,需要具备某些图像传感器功能,其中之一就是自适应局
展位信息深圳跨境电商展览会(CCBEC)时间:2024年9月11-13日 9:30-17:30地点:深圳国际会展中心(宝安)展馆:16号馆 16D73/16D75 展位报名注册准备好“观众注册”入场二
9月6日,“智进AI•网易数智创新企业大会”在秦皇岛正式举行,300+企业高管及代表、数字化技术专家齐聚一堂,探讨当AI从技术探索迈入实际应用,如何成为推动组织无限进化的新引擎。爱分析创始人兼CEO金
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆