【光电智造】Transformers图解(第1部分):功能概述

今日光电 2024-01-22 18:00

今日光电

     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!


----追光逐电 光赢未来----


近年来,我们听说了很多关于Transformers的事情,并且在过去的几年里,它们已经在NLP领域取得了巨大成功。Transformers是一种使用注意力机制(Attention)显著改进深度学习NLP翻译模型性能的架构。它首次在论文Attention is all you need中被引入,并迅速确立为大多数文本数据应用的主导架构。

Attention is all you need  https://arxiv.org/abs/1706.03762

自那时以来,包括GoogleBERTOpenAIGPT系列在内的众多项目已经在这个基础上进行了扩展,并发布了比现有最先进基准更好的性能结果。

在一系列的文章中,我将介绍Transformers的基础知识、其架构以及内部工作原理。我们将以自上而下的方式了解Transformers的功能。

在后续的文章中,我们将深入了解系统的运作细节。我们还将深入研究多头注意力(multi-head attention)的运作,这是Transformers的核心。

以下是本系列和接下来文章的快速摘要(共计四篇)。我的目标是理解事物的运作方式,而不仅仅是了解它是如何运作的。

  • 功能概述 — 本文(Transformers的用途以及为什么它们比RNN更好。架构的组件,以及在训练和推断期间的行为)。

  • 工作原理(内部操作端到端。数据如何流动以及执行了哪些计算,包括矩阵表示)。

  • 多头注意力(贯穿整个Transformers的注意力模块的内部运作)。

  • 为什么注意力提高性能(不仅仅是注意力在做什么,而是为什么它如此有效)。

后面三篇推文进行介绍。

本文来源:https://towardsdatascience.com/transformers-explained-visually-part-1-overview-of-functionality-95a6dd460452

为适合中文阅读习惯,阅读更有代入感,原文翻译后有删改。

Ketan Doshi | 作者

罗伯特 | 编辑


1. 什么是Transformers

Transformers架构擅长处理本质上是顺序(sequential)的文本数据。它们将文本序列作为输入并生成另一个文本序列作为输出,例如将英语句子翻译成西班牙语。


(作者提供的图像)

在其核心,它包含堆叠的编码器层(Encoder layers)解码器层(Decoder layers)

为避免混淆,我们将个体层称为编码器(Encoder)解码器(Decoder)

编码器堆栈和解码器堆栈分别有相应的嵌入层用于它们的输入。最后,有一个输出层用于生成最终输出。

(作者提供的图像)

所有编码器彼此相同。同样,所有解码器也是相同的。

(作者提供的图像)

  • 编码器包含非常重要的自注意力层,用于计算序列中不同单词之间的关系,以及一个前馈层。

  • 解码器包含自注意力层和前馈层,以及第二个编码器-解码器注意力层。

  • 每个编码器和解码器都有自己的权重集。

编码器是所有Transformers架构的定义性组件,是可重复使用的模块。除了上述两个层外,它还在这两个层周围具有残差跳过连接(Residual skip connections),并带有两个LayerNorm层。

(作者提供的图像)

Transformers架构有许多变体。有些Transformers架构根本没有解码器,完全依赖于编码器。

2. 注意力的作用是什么?

Transformers取得突破性性能的关键在于它对注意力的使用。

在处理一个单词时,注意力使模型能够关注输入中与该单词密切相关的其他单词。

例如,ballblueholding密切相关。另一方面,blueboy无关。

Transformers架构通过将输入序列中的每个单词与其他每个单词相关联来使用自注意力。

例如,考虑两个句子:

The cat drank the milk because it was hungry.

The cat drank the milk because it was sweet.

在第一个句子中,it指的是cat,而在第二个句子中,它指的是milk。当模型处理it这个词时,自注意力为模型提供更多关于其含义的信息,以便它能将it与正确的词关联起来。

深色表示更高的注意力(作者提供的图像)

为了使其能够处理关于句子意图和语义的更多细微差别,Transformers为每个单词包含多个注意力分数。

例如,在处理it这个词时,第一个分数突出显示cat,而第二个分数突出显示hungry。因此,当它将it这个词解码成另一种语言时,它将在翻译的词中结合cathungry的一些方面。

(作者提供的图像)

3. 训练Transformers

在训练和推断期间,Transformers的工作稍有不同。

首先,让我们看看训练期间数据的流动。训练数据包括两个部分:

  • 源序列或输入序列(例如,对于一个翻译问题,You are welcome是英语的源序列)

  • 目标序列(例如,西班牙语中的De nada是目标序列)

Transformers的目标是通过使用输入和目标序列来学习如何输出目标序列。

(作者提供的图像)

Transformers处理数据的步骤如下:

  • 将输入序列转换为嵌入(带有位置编码)并馈送到编码器。

  • 编码器堆栈处理此数据并生成输入序列的编码表示。

  • 目标序列以句子开始标记为前缀,转换为嵌入(带有位置编码)并馈送到解码器。

  • 解码器堆栈处理此数据以及编码器堆栈的编码表示,生成目标序列的编码表示。

  • 输出层将其转换为单词概率和最终输出序列。

  • Transformers的损失函数将此输出序列与训练数据中的目标序列进行比较。这个损失用于在反向传播期间训练Transformers生成梯度。

4. 推断

在推断期间,我们只有输入序列,并没有目标序列传递给解码器。Transformers的目标是仅从输入序列中产生目标序列。

因此,就像在Seq2Seq模型中一样,我们在一个循环中生成输出,并将上一个时间步的输出序列馈送到下一个时间步的解码器,直到遇到句子结束标记。

与Seq2Seq模型的不同之处在于,在每个时间步,我们重新馈送迄今生成的整个输出序列,而不仅仅是最后一个单词。

第一时间步后的推断流程(图像由作者提供)

推断期间数据的流动如下:

  • 输入序列被转换为嵌入(带有位置编码)并馈送到编码器。

  • 编码器堆栈处理此数据并生成输入序列的编码表示。

  • 与目标序列不同,我们使用一个只有句子开始标记的空序列。这被转换为嵌入(带有位置编码)并馈送到解码器。

  • 解码器堆栈处理此数据以及编码器堆栈的编码表示,生成目标序列的编码表示。

  • 输出层将其转换为单词概率并生成输出序列。

  • 我们将输出序列的最后一个词视为预测的词。该词现在填入解码器输入序列的第二个位置,其中现在包含一个句子开始标记和第一个单词。

  • 返回到步骤#3。与以前一样,将新的解码器序列馈送到模型。然后取输出的第二个词并将其附加到解码器序列。重复此过程,直到预测到句子结束标记。请注意,由于编码器序列在每次迭代中不变,因此我们不必每次重复步骤#1和#2(感谢Michal Kučírka指出这一点)。

5. Teacher Forcing(强制教师)

在训练期间将目标序列馈送到解码器的方法被称为强制教师。我们为什么要这样做,这个术语是什么意思?

在训练期间,我们本可以使用与推断期间相同的方法。换句话说,循环运行Transformers,取输出序列的最后一个词,将其附加到解码器输入并在下一次迭代中馈送给解码器。最终,当预测到句子结束标记时,损失函数将比较生成的输出序列与目标序列,以便训练网络。

这种循环会导致训练时间更长,而且使训练模型变得更加困难。模型必须基于可能错误的第一个预测单词来预测第二个单词,依此类推。

相反,通过将目标序列馈送到解码器,我们可以说是在给予它一些提示,就像老师会做的一样。即使它预测了错误的第一个单词,它仍然可以使用正确的第一个单词来预测第二个单词,以防这些错误不断累积。

此外,Transformers能够在没有循环的情况下并行输出所有单词,从而大大加快训练速度。

6. Transformers用于什么?

Transformers非常灵活,用于大多数NLP任务,如语言模型和文本分类。它们经常用于序列到序列模型,适用于机器翻译、文本摘要、问答、命名实体识别和语音识别等应用。

有不同类型的Transformers架构用于解决不同的问题。基本的编码器层被用作这些架构的通用构建块,具体取决于正在解决的问题,使用不同的应用特定的头(heads)

7. Transformers分类架构

例如,情感分析应用将接受文本文档作为输入。分类头采用Transformers的输出,并生成类标签的预测,如积极或消极情感。

(作者提供的图像)

8. Transformers语言模型架构

语言模型架构将输入序列的初始部分,如文本句子,作为输入,并通过预测将跟随的句子生成新文本。语言模型头采用Transformers的输出,并为词汇表中的每个单词生成概率。概率最高的单词成为下一个句子中的预测输出。

(作者提供的图像)

9. 它们为什么比循环神经网络(RNNs)更好?

在Transformers出现并取代它们之前,基于RNN的序列到序列模型是所有NLP应用的事实标准,而且表现良好。

基于RNN的序列到序列模型表现不错,当注意机制首次引入时,它被用于增强其性能。

然而,它们有两个限制:

  • 难以处理在长句中分散分开的单词之间的长程依赖关系。

  • 它们按照顺序逐个单词地处理输入序列,这意味着在完成时间步t-1的计算之前,它不能进行时间步t的计算。这减缓了训练和推断的速度。

顺便提一下,使用CNN,所有输出可以并行计算,这使得卷积速度更快。然而,它们在处理长程依赖性方面也有局限性:

  • 在卷积层中,只有能够适应内核大小的图像的部分(如果应用于文本数据,则是单词)可以相互交互。对于相距较远的项,您需要具有许多层的更深的网络。Transformers架构解决了这两个限制。它完全摒弃了RNN,并仅依赖于注意力的好处。

它并行处理序列中的所有单词,从而大大加快了计算速度。

(作者提供的图像)

输入序列中单词之间的距离不重要。它在计算相邻单词和相距较远单词之间的依赖性方面同样出色。

现在我们对Transformers有了一个高层次的了解,我们可以在下一篇文章中深入了解其内部功能,了解它的工作细节。

来源:新机器视觉


申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。


 

----与智者为伍 为创新赋能----


【说明】欢迎企业和个人洽谈合作,投稿发文。欢迎联系我们
诚招运营合伙人 ,对新媒体感兴趣,对光电产业和行业感兴趣。非常有意者通过以下方式联我们!条件待遇面谈
投稿丨合作丨咨询

联系邮箱:uestcwxd@126.com

QQ:493826566


评论 (0)
  •        记得二十多年前,年轻的我刚入行,加入了当年的全球最大的企业也是医疗器械的龙头老大,在企业内医疗器械分公司业务被誉为“皇冠上的宝石”,在他众多的卓越分公司中熠熠生辉格外耀眼。而当年年轻的我就加入了行业中的“黄埔军校”中茁壮成长,开始了追梦(也是噩梦)之旅,工作中得知该公司工程师在美国很受尊敬,路上出示工作证连警方都会优先放行。而在国内的工作让我深切感受到了一辆跑车是如何奔驰在崎岖不平的山路上,感恩这些年来祖国变的富强,建设出了条条康庄大道。风流
    广州铁金刚 2025-03-12 12:09 96浏览
  • 行车记录仪存储卡现状描述行车记录仪作为现代驾驶中的重要安全设备,其记录的视频资料在关键时刻往往能起到至关重要的作用。然而,许多车主在使用行车记录仪时,经常会遇到存储卡提示需要格式化的情况。这一提示不仅让车主们感到困惑,更可能让他们担心行车记录仪的数据安全问题。行车记录仪存储卡提示需要格式化,意味着存储卡上的数据可能无法被正常读取,或者存储卡本身存在某种故障。这种情况下,行车记录仪可能无法继续录制新的视频,而原有的视频资料也可能面临丢失的风险。分析行车记录仪存储卡提示需要格式化怎么办当行车记录仪存
    172林 2025-03-12 14:00 99浏览
  •        传统语音芯片在复杂场景下的高功耗问题长期困扰行业。以某主流智能音箱为例,其待机日均耗电0.05度,年耗电量超18度,相当于一盏5W LED灯全年耗电量的3.6倍。思必驰TH1520芯片通过双核DSP架构与40nm先进制程的协同创新,将典型场景功耗压缩至15-80mW,仅为行业平均值的1/5,成功破解了这一难题,并在美的空调、小鹏P7等产品中实现商用落地。       双核DSP架构的分工与协作是TH15
    中科领创 2025-03-11 15:07 157浏览
  • 为增加微孔加湿器的雾化量,以及从外观和功能设计角度,进一步差异化桌面小型加湿器,市场上出现了越来越多的双头甚至多头的微孔雾化加湿器,用两根棉棒连接两个微孔雾化片,可以同时工作雾化(如下图所示,图片来自网络,仅供参考,侵删),也可以只是其中某一个微孔陶瓷片单独工作雾化。这种双头雾化的设计,存在一个刚需的规格要求:双头的一致性,也就是要保证两个微孔在雾化时的流量大致相同,雾态从外观上不能有明显的差别。消费者语言简单说就是:不能一个高一个低。实际市场的反馈,有公司已经收到不少针对“双头雾化明显不一致”
    Loximonline 2025-03-10 22:11 85浏览
  • 质量管理体系可以依公司场址所有产品与服务过程管理,输入与输出活動來推行使用,例如电动自行车产业包括一阶委外加工供应商、客供品管理、风险管理与质量一致性车辆审验作业等。中小企业要确保组织质量系统的程序及政策得以落实。有效的执行质量保证责任,以满足客户的需求,成公司的目标质量政策,需制文件程序化。质量管理体系定义落实公司质量管理而建立的组织架构、工作职责、作业程序等并将其文件化管理。一般中小企业质量系统依据当地政府法令与ISO国际标准规范要求,以追求客户满意需求过程导向、公司的质量政策制定的。其文件
    优思学院 2025-03-11 11:25 95浏览
  • J599系列光纤连接器的特点标准J599 III系列光纤连接器、J599 A8系列光纤连接器和J599 A6系列光纤连接器均具有相同的符合GJB599B标准规定的插座法兰尺寸。其中,J599 A8系列光纤连接器和J599 A6系列光纤连接器可提供APC的端面类型,其插入损耗和回损损耗性能更优。J599系列光纤连接器的未来发展方向随着国内光纤通信技术的日趋成熟,光纤处理工艺水平的不断提高,以及对光纤连接器需求的多样化,J599系列光纤连接器正在向低损耗、高密度、高可靠方向发展。中连讯科J599 I
    用户1741596356358 2025-03-11 14:24 101浏览
  • 故障现象一辆单电机,前驱的纯电动汽车。方向盘往一边打死过弯,急加速下,听到底盘传来“呜呜”声。在车内能听到,但不算太明显,要仔细听才能听到。类似轴承的声音,车速在30~40km/h下也能重现。故障诊断初步判断根据故障现象的描述,初步怀疑可能的故障点是:1) 左边轮胎的轴承响2) 右边轮胎的轴承响3) 中间的减速器响4) 驱动电机响为了更精确地定位故障,我们使用虹科Pico NVH异响设备来捕捉故障出现时的实时振动和声音数据,用数据说话!设备连接与探头布置如图1,将四通道分别通过四个NVH接口盒与
    虹科Pico汽车示波器 2025-03-12 13:35 115浏览
  • 在捷配PCB板厂的官网计价页中,材料选择难住了很多新打板的工程师,接下来就提供一些疑问解答:一、PCB 原材料有哪些?PCB 制造需要诸多原材料,对于 PCB 厂家而言,这是生产的基础要素。其中包括覆铜板、绝缘金属基板、半固化片、铜箔、阻焊油墨、丝印油墨以及一些化学药剂等。在柔性 PCB 制造时,原材料则有聚酰亚胺和聚酯柔性覆铜板、覆盖膜、胶粘剂、电磁屏蔽膜,有时还会用到钢板或 FR - 4 作为补强材料。 二、原材料在 PCB 成本中的占比情况如何?原材料成本在 PCB 运营成本中所
    捷配科技 2025-03-12 09:16 105浏览
  • 文/郭楚妤编辑/cc孙聪颖‍2024年9月起,家电以旧换新政策在全国范围内广泛落地。8大类产品的覆盖、15%—20%的强劲补贴力度,对消费的拉动超越预期。1月15日,国家发改委和财政部联合发布了《关于2025年加力扩围实施大规模设备更新和消费品以旧换新政策的通知》(以下简称“通知”),明确了补贴设备类型和补贴幅度。2025年以旧换新政策覆盖范围新增手机、平板、智能手表手环3类数码产品,要求单件售价不超过6000元,按产品售价的15%给予补贴。每位消费者每类产品可享受补贴一次,且每件不超过500元
    华尔街科技眼 2025-03-11 09:40 63浏览
  • 随着科学技术的不断发展,触摸芯片在我们的生活中开始扮演着越来越重要的角色,大到工业设备,小到家用电器中都能找到它的身影。相信大家都很好奇触摸芯片到底是怎样一个神奇的存在呢?那我们今天就来一探究竟。要了解触摸芯片,首先我们要知道触摸芯片的定义。触摸芯片是一种感知人机交互的电子元器件,一般分为电阻式和电容式两种触控技术,目前市场上大部分触摸芯片是基于电容式触控感应技术的触摸芯片。我们就以此为例来说明。<iframe height=340 width=100% allowscriptaccess
    ICMAN 2025-03-12 09:37 81浏览
  • CS5228 是一款单端口 HDMI/DVI 电平转换 / 中继器,具有重新定时功能。它支持高达 6.0 Gbps 运行速率的交流和直流耦合输入T-MDS 信号,具备可编程均衡和抖动清理功能。它包含 TypeC双模式 DP 线缆适配器寄存器,可用于识别线缆适配器的性能。抖动清理 PLL(锁相环)能够消除输入抖动,并完全重置系统抖动容限,因此能更好地满足更高数据速率下 HDMI 抖动合规性要求。设备的运行和配置可通过引脚设置或 I2C 总线实现。自动断电和静噪功能提供了灵活的电源管理。2. 特性
    QQ1540182856 2025-03-11 15:35 84浏览
  • 文/郭楚妤编辑/cc孙聪颖‍今年全国两会期间,备受瞩目的《政府工作报告》明确提出,要因地制宜发展新质生产力,为产业发展指明方向。报告强调培育生物制造、量子科技、具身智能、6G 等前沿未来产业。生物制造以生物质或二氧化碳为原料,通过工业发酵实现规模化生产,2023 年市场规模达 4200 亿元,预计未来十年年增速近 17%。量子科技在密码学、通信、计算等方面取得突破,具身智能借助人形机器人等载体引发关注,6G 技术研发将推动更高速、稳定的通信与万物互联。制造业数字化转型也在加速。报告指出,要大力发
    华尔街科技眼 2025-03-10 19:08 104浏览
  •       上个月在立创商城搞了一块ESP32S3R8N8,然后从优信电子淘了一块1.69寸ISP的屏幕,来学习lvgl相关的知识这两个电子元器件还是很精致的。立创在学习资料还是非常丰富的。可以从入门到精通。对于ESP32S3R8N8,立创提供了几中语言和开发工具的入门(如下图),我选择了Arduino赛道。我选择VS code +Platformio 来进行我的1.69寸显示屏点亮。在platformio搭建Arduino环境,参照LED成功比点亮。简单的几行代码
    zhusx123 2025-03-10 22:09 93浏览
  • 随着全球对光伏、风电等可再生能源需求的持续增长,在全球能源转型的浪潮中,储能技术凭借着可平衡能源供需、提高能源利用效率等优势,已成为实现 “双碳” 目标的核心支撑。据国家能源局公布数据显示,截至2024年底,我国新型储能装机规模突破7000万千瓦,约为“十三五”末的20倍,比2023年底增长超过130%,市场前景持续向好。目前,储能系统正朝着高电压(1500V+)与长寿命(≥10 年)等方向稳步演进,然而,愈发高压化、复杂化的储能系统亦面临着严峻的安全挑战。例如,储能电池组与控制电路的直接连接可
    华普微HOPERF 2025-03-12 11:16 55浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦