华为GPU！首个国产万卡训练完成：4000亿参数大模型领先

原创硬件世界 2024-09-20 03:22

泰克精选产品限时双重优惠 构建AI未来，Arm计算平台无处不在

中国电信宣布，天翼云自研的国内首个单集群万卡国产化全功能预训练云服务平台，已经正式发布上线，基于华为昇腾芯片，并完成了万卡规模Llama3.1-405B大模型训练。

Llama3.1-405B作为4000亿参数规模的大模型，在息壤训推服务平台的支持下，经过多轮优化，MFU(算力利用率)达到国内领先水平。

另外，700亿参数大模型Llama2-70B在万卡规模下完成训练，MFU也处于业界领先水平。

据悉，天翼云的这套平台具备万卡纳管和并行训练能力，基于HPFS PB级并行文件系统、CTCCL RDMA高速卡间互联技术、Gang策略与拓扑感知的智算容器调度，以及慧聚自研分布式训练框架TeleFormers和平台，实现万卡资源纳管、万卡规模并行训练。

其中，天翼云自研了AI框架Teleformers，对算子、通信、数据处理进行优化，还有并行策略的自适应调整，显著提升了大模型训练的训练效率。

在目前业内最大参数规模开源单体稠密模型Llama3.1-405B大模型训练测试中，性能表现达到国际同等水平。

算子优化方面，针对昇腾芯片的特性，在网络结构层面对诸多高频算子进行了定制化改造，构建了高性能算子集。

比如matmul算子，利用昇腾芯片的计算亲和性，将算子输入padding到特定的维度，大幅提升执行效率，从而明显缩短了训练时间。

数据处理和流水线方面，通过设置合理的数据分片策略和HPFS条带化优化，结合数据预取与数据下沉技术，大幅提升数据流的处理效率和稳定性；对预处理后的数据集进行了二次分片并提供就近缓存能力，减少GPU空闲时间。

自适应并行策略方面，基于对3D并行中各类计算单元的分析，天翼云设计了多种自适应的3D并行策略，依据模型规模和硬件资源的不同可以自动选择合适的并行策略，充分利用计算资源和显存资源，缩短模型训练中每轮的迭代时间。

说到国产GPU，另一个不得不提的名字就是摩尔线程。它也有好消息传来。

近期在工业和信息化部公布的第六批专精特新“小巨人”企业名单中，摩尔线程凭借在GPU领域的突出表现与创新实力，荣获国家级专精特新“小巨人”企业认定。

专精特新“小巨人”企业，是“专精特新”中小企业中的佼佼者，是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。

摩尔线程此次获得该项殊荣，既是对其强大技术实力、持续创新能力和独特市场竞争力的高度认可，更是对其在推动产业升级和引领行业发展中所发挥重要作用的充分肯定。

自2020年10月成立以来，摩尔线程一直专注于全功能GPU的研发与技术创新，依托先进的MUSA架构，不到4年时间就建立了涵盖芯片、板卡、集群、软件的全栈AI智算产品线。

尤其是夸娥（KUAE）智算集群，作为以全功能GPU为底座、软硬一体化全栈解决方案，具备高兼容性、高稳定性、高扩展性等综合优势，致力于成为大模型训练的先进基础设施。

摩尔线程的目标：成为具备国际竞争力的GPU领军企业！

摩尔线程近期公布的合作进展一览——

与中国建设银行北京市分行战略合作：

基于摩尔线程全功能GPU与夸娥智算集群，共同推动AI技术在金融行业的应用与发展，推动智算集群的测试与评估，加快开发和部署智能服务系统，评估和推进基于GPU的云桌面方案在金融行业的部署。

与苏州德锐特成像技术有限公司达成深度战略合作：

共同研发基于国产全功能GPU的冷冻电镜及计算化学相结合的一站式解决方案，已顺利完成技术适配工作，是德锐特首次在国产GPU平台上完成技术迁移和实际应用，实现了与国际先进GPU相媲美的数据精度，也充分验证了国产GPU在高端生物科技应用中的潜力。

携手索贝共同展示“国产化全域超清解决方案”：

得益于摩尔线程全功能GPU的强大支持，索贝的MetaClip Pro（墨逸）非线性编辑系统及图文包装系统能够在国产环境中流畅稳定地运行，标志着我国超高清制播关键技术设备国产化率的显著提升。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

硬件世界共同研究探讨硬件知识及相关信息

进入专栏

芯语
帖子
文库
下载
博文

今天这起小米SU7车祸，让我彻底服了雷军！

快科技 2024-12-19 111浏览
Intel废除纯粹64位架构x86S！酷睿Ultra200S确认存在5大性能问题

硬件世界 2024-12-20 71浏览
对百度不满，苹果可能与腾讯合作在中国推出AI手机

阿尔法工场研究院 2024-12-20 46浏览
ASIC会不会取代GPU？

鲜枣课堂 2024-12-19 43浏览
突发！TikTok或1月19日美国全面下架

C语言与CPP编程 2024-12-21 40浏览
反转！欧美芯片巨头正在加速“中国制造”，国产成熟制程芯片无敌？

飙叔科技洞察 2024-12-21 36浏览
曾称问界M7刹车失灵，鉴定机构被罚

一览众车 2024-12-20 34浏览
华为Mate70销量攀升，华为申请多枚Mate70系列配色商标！

飙叔科技洞察 2024-12-20 33浏览

ESD二极管的特点及应用丨浪拓电子

sales_263623713 2024-12-12 150浏览
【富芮坤FR3068E-C】开发板套件介绍、环境搭建、工程测试

无垠的广袤 2024-12-11 695浏览
【电子DIY】重拾童年的乐趣——摇杆控制器

哈哈~~~~~~~~~~~ 2024-12-19 698浏览
STM32F030K6 QFN32的PACK芯片支持薄有吗，帮忙发下，谢谢

QWE4562009 2024-12-13 910浏览
【富芮坤FR3068x-C】+上手及点灯

wheat 2024-12-11 1127浏览
【原创奖励】简单电阻电路的等效变换

czd886 2024-12-04 260浏览
【富芮坤FR3068E-C】开箱评测

蓝领围脖 2024-12-12 356浏览
气体放电管（GDT）基本结构

sales_263623713 2024-12-04 397浏览
【富芮坤FR3068x-C】+开发环境构建及问题

jinglixixi_457498010 2024-12-15 541浏览
【富芮坤FR3068x-C】+上手和环境搭建

Helloworld 2024-12-12 629浏览

ASTM D 130-12
所需E币: 0 2024-12-11 14:33 大小: 7.37MB 上传者：念春
[14章附电子书]Springboot+ChatGLM 实战AI数字人面试官系统
所需E币: 0 2024-11-27 14:07 大小: 3.25KB 上传者：huangyasir1990
20套大厂USP电路合集
所需E币: 2 2024-12-08 18:20 大小: 4.66MB 上传者：Jack陈
《普通高中教科书：数学》（人教A版）选择性必修第3册教师教学用书
所需E币: 5 2024-11-20 19:34 大小: 38.57MB 上传者：明星
《相对论》（美·爱因斯坦）
所需E币: 5 2024-11-21 22:03 大小: 9.48MB 上传者：明星
ISO 7637-1-2023
所需E币: 2 2024-12-11 14:35 大小: 8.18MB 上传者：念春
stm32OTG host文档说明
所需E币: 1 2024-11-21 18:13 大小: 1.35MB 上传者：小手凉凉
12-2学习笔记
所需E币: 1 2024-12-03 00:03 大小: 2.46MB 上传者：youyeye
12-9学习笔记
所需E币: 1 2024-12-10 16:15 大小: 4.93MB 上传者：youyeye
汽车动力与底盘MCU市场现状研究报告
所需E币: 0 2024-12-20 17:48 大小: 2.26MB 上传者：奔跑的红烧肉

如何证明耳机产品质量——遵循IEC/EN耳机标准规范是关键

耳机虽看似一个简单的设备，但不仅只是听音乐功能，它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音，再到公共和私人通讯，耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验，还能在长时间使用中保护使用者听力健康。耳机产品的质量，除了验证产品是否符合法规标准，也能透过全面性的测试和认证过程，确保耳机在各方面：从音质到耐用性，再到用户舒适度，都能达到或超越行业标准。这不仅保护了消费者的投资，也提升了该公司在整个行业的产品质量和信誉！客户面临到的各种困难一家耳机制造商想要透

百佳泰测试实验室 2024-12-20 10:37 125浏览
百佳泰整理2024年12月各大规格更新快报

百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放，蓝牙会员可使用该测试，这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年

百佳泰测试实验室 2024-12-20 10:33 84浏览
萝卜快跑走红、滴滴加码，中国Robotaxi大战升级

沉寂已久的无人出租车赛道，在2024年突然升温了。前脚百度旗下萝卜快跑，宣布无人驾驶单量突破800万单；后脚特斯拉就于北京时间10月11日上午，召开了以“We，Robot”为主题的发布会，公布了无人驾驶车型Cybercab和Robovan，就连低调了好几个月的滴滴也在悄悄扩编，大手笔加码Robotaxi。不止是滴滴、百度、特斯拉，作为Robotaxi的重磅选手，文远知行与小马智行，也分别在10月份先后启动美股IPO，极氪也在近日宣布，其与Waymo合作开发的无人驾驶出行汽车将大规模量产交付，无人

刘旷 2024-12-19 11:39 135浏览
守护驾驶安全，驾驶员监控系统DMS应用解决方案

汽车驾驶员监控系统又称DMS，是一种集中在车辆中的技术，用于实时跟踪和评估驾驶员状态及驾驶行为。随着汽车产业智能化转型，整合AI技术的DMS逐渐成为主流，AI模型通过大量数据进行持续训练，使得驾驶监控更加高效和精准。驾驶员监测系统主要通过传感器、摄像头收集驾驶员的面部图像，定位头部姿势、人脸特征及行为特征，并通过各种异常驾驶行为检测模型运算来识别驾驶员的当前状态。如果出现任何异常驾驶行为（如疲劳，分心，抽烟，接打电话，无安全带等），将发出声音及视觉警报。此外，驾驶员的行为数据会被记录

启扬ARM嵌入式 2024-12-20 09:14 70浏览
《高速PCB设计经验规则应用实践》+新手的进阶最佳帮手

不卖关子先说感受，真本书真是相见恨晚啊。字面意思，见到太晚了，我刚毕业或者刚做电子行业就应该接触到这本书的。我自己跌跌撞撞那么多年走了多少弯路，掉过多少坑，都是血泪史啊，要是提前能看到这本书很多弯路很多坑都是可以避免的，可惜这本书是今年出的，羡慕现在的年轻人能有这么丰富完善的资料可以学习，想当年我纯靠百度和论坛搜索、求助啊，连个正经师傅都没有，从软件安装到一步一布操作纯靠自己瞎摸索，然后就是搜索各种教程视频，说出来都是泪啊。 &

DrouSherry 2024-12-19 20:00 75浏览
一文读懂光纤以太网IEEE 802.3cz-中

在上文中，我们介绍了IEEE 802.3cz[1]协议提出背景，旨在定义一套光纤以太网在车载领域的应用标准，并介绍了XMII以及PCS子层的相关机制，在本篇中，将围绕IEEE 802.3cz-MultiGBASE-AU物理层的两个可选功能进行介绍。EEE功能节能以太网（Energy-Efficient Ethernet）是用于在网络空闲时降低设备功耗的功能，在802.3cz的定义中，链

经纬恒润 2024-12-19 18:47 73浏览
AI8051U跑马灯

//```c #include "..\..\comm\AI8051U.h" // 包含头文件，定义了硬件寄存器和常量 #include "stdio.h" // 标准输入输出库 #include "intrins.h" &n

丙丁先生 2024-12-20 10:18 70浏览
HALT高加速寿命试验：快速揭露产品设计缺陷的极限测试推进器

在强调可移植性(portable)的年代，人称「二合一笔电」的平板笔电便成为许多消费者趋之若鹜的3C产品。说到平板笔电，不论是其双向连接设计，面板与键盘底座可分离的独特功能，再加上兼具笔电模式、平板模式、翻转模式及帐篷模式等多种使用方式，让使用者在不同的使用情境下都能随意调整，轻巧灵活的便利性也为多数消费者提供了绝佳的使用体验。然而也正是这样的独特设计，潜藏着传统笔电供货商在产品设计上容易忽视的潜在风险。平板笔电Surface Pro 7+ 的各种使用模式。图片出处：Microsoft Comm

百佳泰测试实验室 2024-12-19 17:40 157浏览
ARM 处理器平台 Ethernet Compliance 测试流程示例

By Toradex秦海1). 简介为了保证基于 IEEE 802.3 协议设计的以太网设备接口可以互相兼容互联互通，需要进行 Ethernet Compliance 一致性测试，相关的技术原理说明请参考如下文章，本文就不赘述，主要展示基于 NXP i.MX8M Mini ARM 处理器平台进行 1000M/100M/10M 以太网端口进行一致性测试的测试流程。https://www.toradex.com

hai.qin_651820742 2024-12-19 15:20 127浏览
探索光耦：高速光耦在电机驱动领域的创新应用实践

随着工业自动化和智能化的发展，电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件，在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件，通过光信号传递电信号，实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦，高速光耦具备更快的响应速度，通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离：高速光

晶台光耦 2024-12-20 10:18 114浏览

华为GPU！首个国产万卡训练完成：4000亿参数大模型领先

最近文章

热门文章

推荐

最新资讯