什么是Transformer模型(二)

原创 英伟达NVIDIA中国 2024-09-10 20:07

如果想在 AI 领域引领一轮新浪潮,就需要使用到 Transformer。

尽管名为 Transformer,但它们不是电视银幕上的变形金刚,也不是电线杆上垃圾桶大小的变压器。


在上一篇《什么是 Transformer 模型(一)》中,通过对 Transformer 模型进行的深入剖析,展开了一幅 AI 领域的创新画卷,本篇文章将聚焦于该模型在现实世界各个领域中的具体应用,以及这些应用如何改变我们的生活和工作方式,展望其在未来人工智能发展中的潜在影响。


让 Transformer 发挥作用


很快,Transformer 模型就被应用于科学和医疗领域。


伦敦的 DeepMind 使用一种名为 AlphaFold2 的 Transformer 加深了对蛋白质这一生命基础要素的理解。最近《自然》期刊上的一篇文章对该 Transformer 进行了描述。这种 Transformer 能够像处理文本字符串一样处理氨基酸链,为描述蛋白质的折叠方式打开了新的思路,这项研究可以加快药物发现的速度。


阿斯利康和 NVIDIA 共同开发了一个专为药物发现量身定制的 Transformer  MegaMolBART。MegaMolBART 是该制药公司 MolBART Transformer 的一个版本,使用 NVIDIA Megatron 在一个大型、无标记的化合物数据库上训练,以创建大规模 Transformer 模型。


阅读分子和医疗记录


阿斯利康分子 AI、发现科学和研发部门负责人 Ola Engkvist 在 2020 年宣布这项工作时表示:“正如 AI 语言模型可以学习句子中单词之间的关系一样,我们的目标是使在分子结构数据上训练而成的神经网络能够学习现实世界分子中原子之间的关系。”


点击视频,观看 NVIDIA NeMo 如何用三行代码开发最先进的对话式 AI 模型


为了从大量临床数据中提炼洞察,加快医学研究的速度,佛罗里达大学学术健康中心与 NVIDIA 研究人员联合创建了 GatorTron 这个 Transformer 模型。


Transformer 增长


在研究过程中,研究人员发现大型 Transformer 性能更好。


慕尼黑工业大学 Rostlab 的研究人员推动着 AI 与生物学交叉领域的前沿研究,他们利用自然语言处理技术来了解蛋白质。该团队在 18 个月的时间里,从使用具有 9000 万个参数的 RNN 升级到具有 5.67 亿个参数的 Transformer 模型。


Rostlab 研究人员展示了在没有标记样本的情况下训练的语言模型所捕捉到的蛋白质序列信号


OpenAI 实验室的生成式预训练 Transformer(GPT)证明了模型的规模越大越好。其最新版本 GPT-3 有 1750 亿个参数,而 GPT-2 只有 15 亿个。


凭借更多的参数,GPT-3 即使在没有经过专门训练的情况下,也能回答用户的问询。思科、IBM、Salesforce 等公司已经在使用 GPT-3。


巨型 Transformer 的故事


NVIDIA 和微软在 2022 年 11 月发布了拥有 5300 亿个参数的 Megatron-Turing 自然语言生成模型(MT-NLG)。与它一起发布的框架 NVIDIA NeMo Megatron 旨在让任何企业都能创建自己的十亿或万亿参数 Transformer,为自定义聊天机器人、个人助手以及其他能理解语言的 AI 应用提供助力。


MT-NLG 首次公开亮相是作为 Toy Jensen(TJ)虚拟形象的大脑,帮助 TJ 在 NVIDIA 2021 年 11 月的 GTC 上发表了一部分主题演讲。


负责 NVIDIA 团队训练该模型的 Mostofa Patwary 表示:“当我们看到 TJ 回答问题时,他作为我们的首席执行官展示我们的工作成果,那一刻真是令人振奋。”


创建这样的模型并非易事。MT-NLG 使用数千亿个数据元素训练而成,整个过程需要数千颗 GPU 运行数周时间。


Patwary 表示:“训练大型 Transformer 模型既昂贵又耗时,如果前一两次没有成功,项目就可能被取消。”


万亿参数 Transformer


如今,许多 AI 工程师正在研究万亿参数 Transformer 及其应用。


Patwary 表示:“我们一直在研究这些大模型如何提供更好的应用。我们还在研究它们会在哪些方面失败,这样就能创建出更好、更大的模型。”


为了提供这些模型所需的算力,NVIDIA 的加速器内置了一个 Transformer 引擎并支持新的 FP8 格式,既加快了训练速度,又保持了准确性。


黄仁勋在 GTC 2022 上表示,通过这些及其他方面的进步,“Transformer 模型的训练时间可以从数周缩短到数天。”


TJ 在 GTC 2022 上表示:“Megatron 能帮助我回答黄仁勋抛给我的所有难题。”


MoE 对于 Transformer 的意义更大


谷歌研究人员 2021 年介绍的 Switch Transformer 是首批万亿参数模型之一。该模型利用 AI 稀疏性、复杂的混合专家(MoE)架构等先进技术提高了语言处理性能并使预训练速度加快了最多 7 倍。


首个拥有多达一万亿个参数模型 Switch Transformer 的编码器


微软 Azure 则与 NVIDIA 合作,在其翻译服务中使用了 MoE Transformer。


解决 Transformer 所面临的挑战


如今,一些研究人员的目标是开发出性能与那些最大的模型相同、但参数更少并且更简单的 Transformer。


Cohere 的 Gomez 以 DeepMind 的 Retro 模型为例:“我看到基于检索的模型将大有可为并实现弯道超车,对此我感到非常兴奋。”


基于检索的模型通过向数据库提交查询来进行学习。他表示:“这很酷,因为你可以对放到知识库中的内容进行选择。”


在追求更高性能的过程中,Transformer 模型的规模也在不断扩大


Vaswani 现在是一家隐形 AI 初创公司的联合创始人,他表示最终目标是“让这些模型像人类一样,在现实世界中使用极少的数据就能从上下文中学习。”


他想象未来的模型可以在前期进行更多计算,从而减少对数据的需求,使用户能够更好地提供反馈。


“我们的目标是创建能够在日常生活中帮助人们的模型。”


安全、负责任的模型


其他研究人员正在研究如何在模型放大错误或有害语言时消除偏见或有害性,例如斯坦福大学专门创建了基础模型研究中心探究这些问题。


NVIDIA 研究科学家 Shrimai Prabhumoye 是业内众多研究这一领域的人士之一。他表示:“这些都是在安全部署模型前需要解决的重要问题。”


“如今,大多数模型需要的是特定的单词或短语。但在现实生活中,这些内容可能会以十分微妙的方式呈现,因此我们必须考虑整个上下文。”


Gomez 表示:“这也是 Cohere 最关心的问题。如果这些模型会伤害到人,就不会有人使用它们,所以创建最安全、最负责任的模型是最基本的要求。”


展望未来


在 Vaswani 的想象中,未来能够自我学习、由注意力驱动的 Transformer 最有可能成为 AI 的“杀手锏”。


他表示:“我们现在有机会实现人们在创造‘通用人工智能’一词时提到的一些目标,我觉得这给我们带来了巨大的启发。”


“在当前这个时代,神经网络等各种简单的方法正在赋予我们大量新的能力。”


小结


本文通过对 Transformer 模型的应用案例进行了梳理,并对其未来的发展方向进行了预测。从生物医药到科学研究,该模型不仅在技术上取得了突破,更在实际应用中展现了其深远的影响力和广阔的前景。本文系列内容到此已经对 Transformer 模型如何扩展我们对于机器学习和 AI 的想象进行了深入介绍。随着技术的不断进步,Transformer 模型将在 AI 的新时代中扮演着更加关键的角色,推动各行各业的创新与变革。



点击“阅读原文”了解更多有关 Transformer 的信息。


GTC 2025 内容征集现已开放扫描下方海报二维码即可提交。2025 年 3 月,在圣何塞向全世界分享您的成就。


评论
  •         不卖关子先说感受,真本书真是相见恨晚啊。字面意思,见到太晚了,我刚毕业或者刚做电子行业就应该接触到这本书的。我自己跌跌撞撞那么多年走了多少弯路,掉过多少坑,都是血泪史啊,要是提前能看到这本书很多弯路很多坑都是可以避免的,可惜这本书是今年出的,羡慕现在的年轻人能有这么丰富完善的资料可以学习,想当年我纯靠百度和论坛搜索、求助啊,连个正经师傅都没有,从软件安装到一步一布操作纯靠自己瞎摸索,然后就是搜索各种教程视频,说出来都是泪啊。  &
    DrouSherry 2024-12-19 20:00 109浏览
  • 汽车行业的变革正愈演愈烈,由交通工具到“第三生活空间”。业内逐渐凝聚共识:汽车的下半场在于智能化。而智能化的核心在于集成先进的传感器,以实现高等级的智能驾驶乃至自动驾驶,以及更个性、舒适、交互体验更优的智能座舱。毕马威中国《聚焦电动化下半场 智能座舱白皮书》数据指出,2026年中国智能座舱市场规模将达到2127亿元,5年复合增长率超过17%。2022年到2026年,智能座舱渗透率将从59%上升至82%。近日,在SENSOR CHINA与琻捷电子联合举办的“汽车传感系列交流会-智能传感专场”上,艾
    艾迈斯欧司朗 2024-12-20 19:45 77浏览
  • 国产数字隔离器已成为现代电子产品中的关键部件,以增强的性能和可靠性取代了传统的光耦合器。这些隔离器广泛应用于医疗设备、汽车电子、工业自动化和其他需要强大信号隔离的领域。准确测试这些设备是确保其质量和性能的基本步骤。如何测试数字隔离器测试数字隔离器需要精度和正确的工具集来评估其在各种条件下的功能和性能。以下设备对于这项任务至关重要:示波器:用于可视化信号波形并测量时序特性,如传播延迟、上升时间和下降时间。允许验证输入输出信号的完整性。频谱分析仪:测量电磁干扰(EMI)和其他频域特性。有助于识别信号
    克里雅半导体科技 2024-12-20 16:35 59浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 139浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 113浏览
  • 光耦固态继电器(SSR)作为现代电子控制系统中不可或缺的关键组件,正逐步取代传统机械继电器。通过利用光耦合技术,SSR不仅能够提供更高的可靠性,还能适应更加复杂和严苛的应用环境。在本文中,我们将深入探讨光耦固态继电器的工作原理、优势、挑战以及未来发展趋势。光耦固态继电器:如何工作并打破传统继电器的局限?光耦固态继电器通过光电隔离技术,实现输入信号与负载之间的电气隔离。其工作原理包括三个关键步骤:光激活:LED接收输入电流并发出与其成比例的光信号。光传输:光电传感器(如光电二极管或光电晶体管)接收
    腾恩科技-彭工 2024-12-20 16:30 46浏览
  • ALINX 正式发布 AMD Virtex UltraScale+ 系列 FPGA PCIe 3.0 综合开发平台 AXVU13P!这款搭载 AMD 16nm 工艺 XCVU13P 芯片的高性能开发验证平台,凭借卓越的计算能力和灵活的扩展性,专为应对复杂应用场景和高带宽需求而设计,助力技术开发者加速产品创新与部署。随着 5G、人工智能和高性能计算等领域的迅猛发展,各行业对计算能力、灵活性和高速数据传输的需求持续攀升。FPGA 凭借其高度可编程性和实时并行处理能力,已成为解决行业痛点的关
    ALINX 2024-12-20 17:44 73浏览
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 146浏览
  • 光耦合器,也称为光隔离器,是用于电气隔离和信号传输的多功能组件。其应用之一是测量电路中的电压。本文介绍了如何利用光耦合器进行电压测量,阐明了其操作和实际用途。使用光耦合器进行电压测量的工作原理使用光耦合器进行电压测量依赖于其在通过光传输信号的同时隔离输入和输出电路的能力。该过程包括:连接到电压源光耦合器连接在电压源上。输入电压施加到光耦合器的LED,LED发出的光与施加的电压成比例。光电二极管响应LED发出的光由输出侧的光电二极管或光电晶体管检测。随着LED亮度的变化,光电二极管的电阻相应减小,
    腾恩科技-彭工 2024-12-20 16:31 58浏览
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 84浏览
  • 汽车驾驶员监控系统又称DMS,是一种集中在车辆中的技术,用于实时跟踪和评估驾驶员状态及驾驶行为。随着汽车产业智能化转型,整合AI技术的DMS逐渐成为主流,AI模型通过大量数据进行持续训练,使得驾驶监控更加高效和精准。 驾驶员监测系统主要通过传感器、摄像头收集驾驶员的面部图像,定位头部姿势、人脸特征及行为特征,并通过各种异常驾驶行为检测模型运算来识别驾驶员的当前状态。如果出现任何异常驾驶行为(如疲劳,分心,抽烟,接打电话,无安全带等),将发出声音及视觉警报。此外,驾驶员的行为数据会被记录
    启扬ARM嵌入式 2024-12-20 09:14 94浏览
  •         在上文中,我们介绍了IEEE 802.3cz[1]协议提出背景,旨在定义一套光纤以太网在车载领域的应用标准,并介绍了XMII以及PCS子层的相关机制,在本篇中,将围绕IEEE 802.3cz-MultiGBASE-AU物理层的两个可选功能进行介绍。EEE功能        节能以太网(Energy-Efficient Ethernet)是用于在网络空闲时降低设备功耗的功能,在802.3cz的定义中,链
    经纬恒润 2024-12-19 18:47 81浏览
  • Supernode与艾迈斯欧司朗携手,通过Belago红外LED实现精准扫地机器人避障;得益于Belago出色的红外补光功能,使扫地机器人能够大大提升其识别物体的能力,实现精准避障;Belago点阵照明器采用迷你封装,兼容标准无铅回流工艺,适用于各种3D传感平台,包括移动设备、物联网设备和机器人。全球领先的光学解决方案供应商艾迈斯欧司朗(瑞士证券交易所股票代码:AMS)近日宣布,与国内领先的多行业三维视觉方案提供商超节点创新科技(Supernode)双方联合推出采用艾迈斯欧司朗先进Belago红
    艾迈斯欧司朗 2024-12-20 18:55 70浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦