【光电智造】Transformers图解（第1部分）：功能概述

今日光电 2024-01-22 18:00 222浏览 0评论 0点赞

解密5G NR定位在分布式能源系统的同步控制应用 针对AI服务器方案的模拟与数模混合产品布局

今日光电

有人说，20世纪是电的世纪，21世纪是光的世纪；知光解电，再小的个体都可以被赋能。追光逐电，光赢未来...欢迎来到今日光电！

----追光逐电光赢未来----

近年来，我们听说了很多关于Transformers的事情，并且在过去的几年里，它们已经在NLP领域取得了巨大成功。Transformers是一种使用注意力机制（Attention）显著改进深度学习NLP翻译模型性能的架构。它首次在论文Attention is all you need中被引入，并迅速确立为大多数文本数据应用的主导架构。

Attention is all you need https://arxiv.org/abs/1706.03762

自那时以来，包括Google的BERT和OpenAI的GPT系列在内的众多项目已经在这个基础上进行了扩展，并发布了比现有最先进基准更好的性能结果。

在一系列的文章中，我将介绍Transformers的基础知识、其架构以及内部工作原理。我们将以自上而下的方式了解Transformers的功能。

在后续的文章中，我们将深入了解系统的运作细节。我们还将深入研究多头注意力(multi-head attention)的运作，这是Transformers的核心。

以下是本系列和接下来文章的快速摘要（共计四篇）。我的目标是理解事物的运作方式，而不仅仅是了解它是如何运作的。

功能概述 — 本文（Transformers的用途以及为什么它们比RNN更好。架构的组件，以及在训练和推断期间的行为）。
工作原理（内部操作端到端。数据如何流动以及执行了哪些计算，包括矩阵表示）。
多头注意力（贯穿整个Transformers的注意力模块的内部运作）。
为什么注意力提高性能（不仅仅是注意力在做什么，而是为什么它如此有效）。

后面三篇推文进行介绍。

本文来源：https://towardsdatascience.com/transformers-explained-visually-part-1-overview-of-functionality-95a6dd460452

为适合中文阅读习惯，阅读更有代入感，原文翻译后有删改。

Ketan Doshi | 作者

罗伯特 | 编辑

1. 什么是Transformers

Transformers架构擅长处理本质上是顺序(sequential)的文本数据。它们将文本序列作为输入并生成另一个文本序列作为输出，例如将英语句子翻译成西班牙语。

（作者提供的图像）

在其核心，它包含堆叠的编码器层(Encoder layers)和解码器层(Decoder layers)。

为避免混淆，我们将个体层称为编码器(Encoder)或解码器(Decoder)。

编码器堆栈和解码器堆栈分别有相应的嵌入层用于它们的输入。最后，有一个输出层用于生成最终输出。

（作者提供的图像）

所有编码器彼此相同。同样，所有解码器也是相同的。

（作者提供的图像）

编码器包含非常重要的自注意力层，用于计算序列中不同单词之间的关系，以及一个前馈层。
解码器包含自注意力层和前馈层，以及第二个编码器-解码器注意力层。
每个编码器和解码器都有自己的权重集。

编码器是所有Transformers架构的定义性组件，是可重复使用的模块。除了上述两个层外，它还在这两个层周围具有残差跳过连接(Residual skip connections)，并带有两个LayerNorm层。

（作者提供的图像）

Transformers架构有许多变体。有些Transformers架构根本没有解码器，完全依赖于编码器。

2. 注意力的作用是什么？

Transformers取得突破性性能的关键在于它对注意力的使用。

在处理一个单词时，注意力使模型能够关注输入中与该单词密切相关的其他单词。

例如，ball与blue和holding密切相关。另一方面，blue与boy无关。

Transformers架构通过将输入序列中的每个单词与其他每个单词相关联来使用自注意力。

例如，考虑两个句子：

The cat drank the milk because it was hungry.

The cat drank the milk because it was sweet.

在第一个句子中，it指的是cat，而在第二个句子中，它指的是milk。当模型处理it这个词时，自注意力为模型提供更多关于其含义的信息，以便它能将it与正确的词关联起来。

深色表示更高的注意力（作者提供的图像）

为了使其能够处理关于句子意图和语义的更多细微差别，Transformers为每个单词包含多个注意力分数。

例如，在处理it这个词时，第一个分数突出显示cat，而第二个分数突出显示hungry。因此，当它将it这个词解码成另一种语言时，它将在翻译的词中结合cat和hungry的一些方面。

（作者提供的图像）

3. 训练Transformers

在训练和推断期间，Transformers的工作稍有不同。

首先，让我们看看训练期间数据的流动。训练数据包括两个部分：

源序列或输入序列（例如，对于一个翻译问题，You are welcome是英语的源序列）
目标序列（例如，西班牙语中的De nada是目标序列）

Transformers的目标是通过使用输入和目标序列来学习如何输出目标序列。

（作者提供的图像）

Transformers处理数据的步骤如下：

将输入序列转换为嵌入（带有位置编码）并馈送到编码器。
编码器堆栈处理此数据并生成输入序列的编码表示。
目标序列以句子开始标记为前缀，转换为嵌入（带有位置编码）并馈送到解码器。
解码器堆栈处理此数据以及编码器堆栈的编码表示，生成目标序列的编码表示。
输出层将其转换为单词概率和最终输出序列。
Transformers的损失函数将此输出序列与训练数据中的目标序列进行比较。这个损失用于在反向传播期间训练Transformers生成梯度。

4. 推断

在推断期间，我们只有输入序列，并没有目标序列传递给解码器。Transformers的目标是仅从输入序列中产生目标序列。

因此，就像在Seq2Seq模型中一样，我们在一个循环中生成输出，并将上一个时间步的输出序列馈送到下一个时间步的解码器，直到遇到句子结束标记。

与Seq2Seq模型的不同之处在于，在每个时间步，我们重新馈送迄今生成的整个输出序列，而不仅仅是最后一个单词。

第一时间步后的推断流程（图像由作者提供）

推断期间数据的流动如下：

输入序列被转换为嵌入（带有位置编码）并馈送到编码器。
编码器堆栈处理此数据并生成输入序列的编码表示。
与目标序列不同，我们使用一个只有句子开始标记的空序列。这被转换为嵌入（带有位置编码）并馈送到解码器。
解码器堆栈处理此数据以及编码器堆栈的编码表示，生成目标序列的编码表示。
输出层将其转换为单词概率并生成输出序列。
我们将输出序列的最后一个词视为预测的词。该词现在填入解码器输入序列的第二个位置，其中现在包含一个句子开始标记和第一个单词。
返回到步骤＃3。与以前一样，将新的解码器序列馈送到模型。然后取输出的第二个词并将其附加到解码器序列。重复此过程，直到预测到句子结束标记。请注意，由于编码器序列在每次迭代中不变，因此我们不必每次重复步骤＃1和＃2（感谢Michal Kučírka指出这一点）。