华为GPU!首个国产万卡训练完成:4000亿参数大模型领先

原创 硬件世界 2024-09-20 03:22

中国电信宣布,天翼云自研的国内首个单集群万卡国产化全功能预训练云服务平台,已经正式发布上线,基于华为昇腾芯片,并完成了万卡规模Llama3.1-405B大模型训练。

Llama3.1-405B作为4000亿参数规模的大模型,在息壤训推服务平台的支持下,经过多轮优化,MFU(算力利用率)达到国内领先水平。

另外,700亿参数大模型Llama2-70B在万卡规模下完成训练,MFU也处于业界领先水平。

据悉,天翼云的这套平台具备万卡纳管和并行训练能力,基于HPFS PB级并行文件系统、CTCCL RDMA高速卡间互联技术、Gang策略与拓扑感知的智算容器调度,以及慧聚自研分布式训练框架TeleFormers和平台,实现万卡资源纳管、万卡规模并行训练。

其中,天翼云自研了AI框架Teleformers,对算子、通信、数据处理进行优化,还有并行策略的自适应调整,显著提升了大模型训练的训练效率。

在目前业内最大参数规模开源单体稠密模型Llama3.1-405B大模型训练测试中,性能表现达到国际同等水平。

算子优化方面,针对昇腾芯片的特性,在网络结构层面对诸多高频算子进行了定制化改造,构建了高性能算子集。

比如matmul算子,利用昇腾芯片的计算亲和性,将算子输入padding到特定的维度,大幅提升执行效率,从而明显缩短了训练时间。

数据处理和流水线方面,通过设置合理的数据分片策略和HPFS条带化优化,结合数据预取与数据下沉技术,大幅提升数据流的处理效率和稳定性;对预处理后的数据集进行了二次分片并提供就近缓存能力,减少GPU空闲时间。

自适应并行策略方面,基于对3D并行中各类计算单元的分析,天翼云设计了多种自适应的3D并行策略,依据模型规模和硬件资源的不同可以自动选择合适的并行策略,充分利用计算资源和显存资源,缩短模型训练中每轮的迭代时间。

说到国产GPU,另一个不得不提的名字就是摩尔线程。它也有好消息传来。

近期在工业和信息化部公布的第六批专精特新“小巨人”企业名单中,摩尔线程凭借在GPU领域的突出表现与创新实力,荣获国家级专精特新“小巨人”企业认定。

专精特新“小巨人”企业,是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。

摩尔线程此次获得该项殊荣,既是对其强大技术实力、持续创新能力和独特市场竞争力的高度认可,更是对其在推动产业升级和引领行业发展中所发挥重要作用的充分肯定。

自2020年10月成立以来,摩尔线程一直专注于全功能GPU的研发与技术创新,依托先进的MUSA架构,不到4年时间就建立了涵盖芯片、板卡、集群、软件的全栈AI智算产品线。

尤其是夸娥(KUAE)智算集群,作为以全功能GPU为底座、软硬一体化全栈解决方案,具备高兼容性、高稳定性、高扩展性等综合优势,致力于成为大模型训练的先进基础设施。

摩尔线程的目标:成为具备国际竞争力的GPU领军企业!

摩尔线程近期公布的合作进展一览——

与中国建设银行北京市分行战略合作:

基于摩尔线程全功能GPU与夸娥智算集群,共同推动AI技术在金融行业的应用与发展,推动智算集群的测试与评估,加快开发和部署智能服务系统,评估和推进基于GPU的云桌面方案在金融行业的部署。

与苏州德锐特成像技术有限公司达成深度战略合作:

共同研发基于国产全功能GPU的冷冻电镜及计算化学相结合的一站式解决方案,已顺利完成技术适配工作,是德锐特首次在国产GPU平台上完成技术迁移和实际应用,实现了与国际先进GPU相媲美的数据精度,也充分验证了国产GPU在高端生物科技应用中的潜力。

携手索贝共同展示“国产化全域超清解决方案”:

得益于摩尔线程全功能GPU的强大支持,索贝的MetaClip Pro(墨逸)非线性编辑系统及图文包装系统能够在国产环境中流畅稳定地运行,标志着我国超高清制播关键技术设备国产化率的显著提升。


硬件世界 共同研究探讨硬件知识及相关信息
评论
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 125浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 84浏览
  • 沉寂已久的无人出租车赛道,在2024年突然升温了。前脚百度旗下萝卜快跑,宣布无人驾驶单量突破800万单;后脚特斯拉就于北京时间10月11日上午,召开了以“We,Robot”为主题的发布会,公布了无人驾驶车型Cybercab和Robovan,就连低调了好几个月的滴滴也在悄悄扩编,大手笔加码Robotaxi。不止是滴滴、百度、特斯拉,作为Robotaxi的重磅选手,文远知行与小马智行,也分别在10月份先后启动美股IPO,极氪也在近日宣布,其与Waymo合作开发的无人驾驶出行汽车将大规模量产交付,无人
    刘旷 2024-12-19 11:39 135浏览
  • 汽车驾驶员监控系统又称DMS,是一种集中在车辆中的技术,用于实时跟踪和评估驾驶员状态及驾驶行为。随着汽车产业智能化转型,整合AI技术的DMS逐渐成为主流,AI模型通过大量数据进行持续训练,使得驾驶监控更加高效和精准。 驾驶员监测系统主要通过传感器、摄像头收集驾驶员的面部图像,定位头部姿势、人脸特征及行为特征,并通过各种异常驾驶行为检测模型运算来识别驾驶员的当前状态。如果出现任何异常驾驶行为(如疲劳,分心,抽烟,接打电话,无安全带等),将发出声音及视觉警报。此外,驾驶员的行为数据会被记录
    启扬ARM嵌入式 2024-12-20 09:14 70浏览
  •         不卖关子先说感受,真本书真是相见恨晚啊。字面意思,见到太晚了,我刚毕业或者刚做电子行业就应该接触到这本书的。我自己跌跌撞撞那么多年走了多少弯路,掉过多少坑,都是血泪史啊,要是提前能看到这本书很多弯路很多坑都是可以避免的,可惜这本书是今年出的,羡慕现在的年轻人能有这么丰富完善的资料可以学习,想当年我纯靠百度和论坛搜索、求助啊,连个正经师傅都没有,从软件安装到一步一布操作纯靠自己瞎摸索,然后就是搜索各种教程视频,说出来都是泪啊。  &
    DrouSherry 2024-12-19 20:00 75浏览
  •         在上文中,我们介绍了IEEE 802.3cz[1]协议提出背景,旨在定义一套光纤以太网在车载领域的应用标准,并介绍了XMII以及PCS子层的相关机制,在本篇中,将围绕IEEE 802.3cz-MultiGBASE-AU物理层的两个可选功能进行介绍。EEE功能        节能以太网(Energy-Efficient Ethernet)是用于在网络空闲时降低设备功耗的功能,在802.3cz的定义中,链
    经纬恒润 2024-12-19 18:47 73浏览
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 70浏览
  • 在强调可移植性(portable)的年代,人称「二合一笔电」的平板笔电便成为许多消费者趋之若鹜的3C产品。说到平板笔电,不论是其双向连接设计,面板与键盘底座可分离的独特功能,再加上兼具笔电模式、平板模式、翻转模式及帐篷模式等多种使用方式,让使用者在不同的使用情境下都能随意调整,轻巧灵活的便利性也为多数消费者提供了绝佳的使用体验。然而也正是这样的独特设计,潜藏着传统笔电供货商在产品设计上容易忽视的潜在风险。平板笔电Surface Pro 7+ 的各种使用模式。图片出处:Microsoft Comm
    百佳泰测试实验室 2024-12-19 17:40 157浏览
  • By Toradex秦海1). 简介为了保证基于 IEEE 802.3 协议设计的以太网设备接口可以互相兼容互联互通,需要进行 Ethernet Compliance 一致性测试,相关的技术原理说明请参考如下文章,本文就不赘述,主要展示基于 NXP i.MX8M Mini ARM 处理器平台进行 1000M/100M/10M 以太网端口进行一致性测试的测试流程。https://www.toradex.com
    hai.qin_651820742 2024-12-19 15:20 127浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 114浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦