Transformer 如何工作：Transformer 架构的详细探索

Transformer 如何工作：Transformer 架构的详细探索
- 什么是 Transformer？
- - 什么是 Transformer 模型？
  - 历史背景
  - 从 RNN 模型（如 LSTM）到 Transformer 模型在 NLP 问题上的转变
- Transformer 架构
- - 概述
  - 编码器工作流程
  - - 步骤 1 - 输入嵌入
    - 步骤 2 - 位置编码
    - 步骤 3 - 编码器层堆栈
    - 步骤 3.1 多头自注意力机制
    - - 矩阵乘法 (MatMul) - 查询和键的点积
      - 降低注意力分数的大小
      - 对调整后的分数应用 Softmax
      - 将 Softmax 结果与值向量相结合
    - 步骤 3.2 归一化和残差连接
    - 步骤 3.3 前馈神经网络
    - 步骤 4 - 编码器的输出
  - 解码器工作流程
  - - 步骤 1 - 输出嵌入
    - 步骤 2 - 位置编码
    - 步骤 3 - 解码器层堆栈
    - - 步骤 3.1 掩码自注意力机制
      - 步骤 3.2 - 编码器-解码器多头注意力或交叉注意力
      - 步骤 3.3 前馈神经网络
    - 步骤 4 线性分类器和 Softmax 用于生成输出概率
    - - 归一化和残差连接
      - 解码器的输出
- 现实生活中的 Transformer 模型
- - BERT
  - LaMDA
  - GPT 和 ChatGPT
  - 其他变体
- 基准和性能
- - 机器翻译任务
  - 问答基准
  - NLI 基准
- 与其他架构的比较
- - 循环层
  - 卷积层
- 结论

翻译：《How Transformers Work: A Detailed Exploration of Transformer Architecture》

Transformer 如何工作：Transformer 架构的详细探索

探索 Transformer 的架构，这种模型通过自注意力机制彻底改变了数据处理方式。

得益于 Transformer 模型的出现和快速发展，深度学习领域正在经历一场巨变。

这些开创性的架构不仅重新定义了自然语言处理（NLP）的标准，还将其视野拓宽到彻底改变人工智能的众多方面。

Transformer 模型以其独特的注意机制和并行处理能力为特点，证明了在理解和生成人类语言方面取得了前所未有的准确性和效率的创新飞跃。

Transformer 架构最早出现在谷歌 2017 年的论文《Attention is all you need》中，它是像 ChatGPT 这样的开创性模型的核心，在人工智能社区引发了新一轮的热潮。它们在 OpenAI 的尖端语言模型中发挥了重要作用，并在 DeepMind 的 AlphaStar 中扮演了关键角色。

在这个人工智能的变革时代，Transformer 模型对于有抱负的数据科学家和 NLP 从业者的重要性怎么强调都不为过。

作为大多数最新技术飞跃的核心领域之一，本文旨在揭开这些模型背后的秘密。

什么是 Transformer？

Transformer 最初是为了解决序列转导问题或神经机器翻译而开发的，这意味着它们旨在解决任何将输入序列转换为输出序列的任务。这就是为什么它们被称为“Transformer”。

但让我们从头说起。

什么是 Transformer 模型？

Transformer 模型是一种神经网络，它学习序列数据的上下文并从中生成新数据。

简单地说：

Transformer 是一种人工智能模型，它通过分析大量文本数据中的模式来学习理解和生成类似人类的文本。

Transformer 是当前最先进的 NLP 模型，被认为是编码器-解码器架构的演进。然而，虽然编码器-解码器架构主要依赖循环神经网络（RNN）来提取序列信息，但 Transformer 完全没有这种循环性。

那么，它们是如何做到的呢？

它们专门设计用于通过分析不同元素之间的关系来理解上下文和意义，并且几乎完全依赖于一种称为“注意力”的数学技术来实现这一点。

Transformer 架构的黑盒图示
图片由作者提供。

历史背景

Transformer 模型源于谷歌 2017 年的一篇研究论文，是机器学习领域最新、最有影响力的发展之一。第一个 Transformer 模型在影响深远的论文《Attention is All You Need》中进行了解释。

这个开创性的概念不仅是理论上的进步，而且还得到了实际应用，特别是在 TensorFlow 的 Tensor2Tensor 包中。此外，哈佛 NLP 小组通过提供一份带注释的论文指南，并附有 PyTorch 实现，为这个新兴领域做出了贡献。您可以在我们的另一篇教程中了解更多关于如何从头开始实现 Transformer 的信息。

它们的推出极大地推动了该领域的发展，通常被称为 Transformer AI。这个革命性的模型为后续大型语言模型领域的突破（包括 BERT）奠定了基础。到 2018 年，这些发展已经被誉为 NLP 的一个分水岭。

2020 年，OpenAI 的研究人员宣布了 GPT-3。几周之内，人们就用它来创作诗歌、程序、歌曲、网站等等，迅速展示了 GPT-3 的多功能性，激发了全球用户的想象力。

在 2021 年的一篇论文中，斯坦福大学的学者们恰当地将这些创新称为基础模型，强调了它们在重塑人工智能方面的基础性作用。他们的工作凸显了 Transformer 模型不仅如何彻底改变了该领域，而且还推动了人工智能可实现目标的边界，预示着一个充满可能性的新时代。

“我们正处在一个简单的神经网络等方法为我们带来新功能爆炸式增长的时代，” Ashish Vaswani，一位企业家，前谷歌高级研究科学家。

从 RNN 模型（如 LSTM）到 Transformer 模型在 NLP 问题上的转变

在 Transformer 模型推出之时，RNN 是处理序列数据的首选方法，其特点是输入具有特定的顺序。

RNN 的功能类似于前馈神经网络，但它按顺序逐个元素处理输入。

Transformer 的灵感来自于 RNN 中的编码器-解码器架构。然而，Transformer 模型完全基于注意力机制，而不是使用循环。

除了提高 RNN 性能外，Transformer 还提供了一种新的架构来解决许多其他任务，例如文本摘要、图像字幕和语音识别。

那么，RNN 的主要问题是什么？它们在 NLP 任务中效率低下的主要原因有两个：

它们按顺序处理输入数据，一个接一个。这种循环过程无法利用专为并行计算设计的现代图形处理单元 (GPU)，因此使得此类模型的训练速度相当慢。
当元素彼此相距较远时，它们变得相当低效。这是因为信息在每一步都会传递，链条越长，信息在链条中丢失的可能性就越大。

从循环神经网络 (RNN)（如 LSTM）到 Transformer 在 NLP 中的转变是由这两个主要问题以及 Transformer 利用注意力机制改进来评估这两个问题的能力所驱动的：

关注特定的单词，无论它们相距多远。
提高性能速度。

因此，Transformer 成为 RNN 的自然改进。

接下来，让我们看看 Transformer 是如何工作的。

Transformer 架构

概述

Transformer 最初是为序列转导或神经机器翻译而设计的，擅长将输入序列转换为输出序列。它是第一个完全依赖自注意力来计算其输入和输出表示的转导模型，而无需使用序列对齐的 RNN 或卷积。Transformer 架构的核心特征是它们保留了编码器-解码器模型。

如果我们将用于语言翻译的 Transformer 视为一个简单的黑匣子，它会接收一种语言（例如英语）的句子作为输入，并输出其英语翻译。

将用于语言翻译的 Transformer 架构视为一个将英语翻译成西班牙语的黑匣子
图片由作者提供。

如果我们再深入一点，我们会发现这个黑匣子由两个主要部分组成：

编码器接收我们的输入并输出该输入的矩阵表示。例如，英语句子“How are you?”
解码器接收该编码表示并迭代生成输出。在我们的例子中，是翻译后的句子“¿Cómo estás?”

带有两个通用模块（编码器和解码器）的语言翻译 Transformer 架构
图片由作者提供。编码器-解码器的全局结构。

然而，编码器和解码器实际上都是一个具有多层（每层数量相同）的堆栈。所有编码器都具有相同的结构，输入进入每个编码器并传递给下一个。所有解码器也具有相同的结构，并从最后一个编码器和前一个解码器获取输入。

最初的架构由 6 个编码器和 6 个解码器组成，但我们可以根据需要复制任意数量的层。所以我们假设每种有 N 层。

带有两个通用模块（编码器和解码器）的语言翻译 Transformer 架构，每个模块重复 N 次
图片由作者提供。编码器-解码器的全局结构。多层结构。

现在我们对整个 Transformer 架构有了一个大概的了解，让我们专注于编码器和解码器，以更好地理解它们的工作流程：

编码器工作流程

编码器是 Transformer 架构的基本组成部分。编码器的主要功能是将输入标记转换为上下文化的表示。与早期独立处理标记的模型不同，Transformer 编码器捕获每个标记相对于整个序列的上下文。

其结构组成如下：

Transformer 编码器的架构
图片由作者提供。编码器的全局结构。

让我们将其工作流程分解为最基本的步骤：

步骤 1 - 输入嵌入

嵌入仅发生在最底层的编码器中。编码器首先使用嵌入层将输入标记（单词或子词）转换为向量。这些嵌入捕获标记的语义含义并将其转换为数值向量。

所有编码器都接收一个向量列表，每个向量的大小为 512（固定大小）。在最底层的编码器中，这将是词嵌入，但在其他编码器中，它将是其正下方编码器的输出。

编码器工作流程：输入嵌入如何工作
图片由作者提供。编码器工作流程。输入嵌入。

步骤 2 - 位置编码

由于 Transformer 没有像 RNN 那样的循环机制，它们使用添加到输入嵌入中的位置编码来提供有关序列中每个标记位置的信息。这使它们能够理解句子中每个单词的位置。

为此，研究人员建议采用各种正弦和余弦函数的组合来创建位置向量，从而使该位置编码器能够用于任何长度的句子。

在这种方法中，每个维度都由波的唯一频率和偏移表示，值范围从 -1 到 1，有效地表示每个位置。

编码器工作流程：位置编码如何工作
图片由作者提供。编码器工作流程。位置编码。

步骤 3 - 编码器层堆栈

Transformer 编码器由一堆相同的层组成（在原始 Transformer 模型中为 6 层）。

编码器层用于将所有输入序列转换为一个连续的、抽象的表示，该表示封装了从整个序列中学到的信息。该层包括两个子模块：

一个多头注意力机制。
一个全连接网络。

此外，它还在每个子层周围加入了残差连接，然后进行层归一化。

编码器工作流程：编码器层堆栈
图片由作者提供。编码器工作流程。编码器层堆栈

步骤 3.1 多头自注意力机制

在编码器中，多头注意力利用一种称为自注意力的专门注意力机制。这种方法使模型能够将输入中的每个单词与其他单词关联起来。例如，在给定的示例中，模型可能会学习将单词“are”与“you”联系起来。

这种机制允许编码器在处理每个标记时关注输入序列的不同部分。它根据以下内容计算注意力分数：

查询（Query）是一个向量，表示注意力机制中输入序列中的特定单词或标记。
键（Key）也是注意力机制中的一个向量，对应于输入序列中的每个单词或标记。
每个值（Value）都与一个键相关联，并用于构建注意力层的输出。当查询和键匹配良好时（基本上意味着它们具有高注意力分数），相应的值将在输出中得到强调。

第一个自注意力模块使模型能够从整个序列中捕获上下文信息。查询、键和值不是执行单个注意力函数，而是线性投影 h 次。在这些查询、键和值的每个投影版本上，注意力机制并行执行，产生 h 维输出值。

详细架构如下：

编码器工作流程：多头注意力机制

矩阵乘法 (MatMul) - 查询和键的点积

一旦查询、键和值向量通过线性层，就会在查询和键之间执行点积矩阵乘法，从而创建分数矩阵。

分数矩阵确定每个单词应对其他单词施加多大程度的强调。因此，每个单词都被分配一个相对于同一时间步内其他单词的分数。分数越高表示关注度越高。

这个过程有效地将查询映射到其相应的键。

编码器工作流程：注意力机制 - 矩阵乘法
图片由作者提供。编码器工作流程。注意力机制 - 矩阵乘法。

降低注意力分数的大小

然后通过将分数除以查询和键向量维度的平方根来缩小分数。实施此步骤是为了确保更稳定的梯度，因为值的相乘可能导致过大的影响。

编码器工作流程：降低注意力分数
图片由作者提供。编码器工作流程。降低注意力分数。

对调整后的分数应用 Softmax

随后，对调整后的分数应用 softmax 函数以获得注意力权重。这会产生介于 0 和 1 之间的概率值。softmax 函数强调较高的分数，同时减弱较低的分数，从而增强模型有效确定哪些单词应获得更多注意力的能力。

编码器工作流程：对调整后的分数应用 Softmax
图片由作者提供。编码器工作流程。Softmax 调整后的分数。

将 Softmax 结果与值向量相结合

注意力机制的下一步是将从 softmax 函数导出的权重乘以值向量，从而产生一个输出向量。

在此过程中，仅保留具有高 softmax 分数的单词。最后，将此输出向量输入线性层进行进一步处理。

编码器工作流程：将 Softmax 结果与值向量相结合
图片由作者提供。编码器工作流程。将 Softmax 结果与值向量相结合。

我们最终得到了注意力机制的输出！

那么，您可能想知道为什么它被称为多头注意力？

请记住，在所有过程开始之前，我们将查询、键和值分成 h 次。这个称为自注意力的过程在每个较小的阶段或“头”中独立发生。每个头都独立发挥其魔力，产生一个输出向量。

这个集合通过一个最终的线性层，就像一个微调它们集体性能的过滤器。这里的美妙之处在于每个头的学习多样性，从而使编码器模型具有强大而多方面的理解能力。

步骤 3.2 归一化和残差连接

编码器层中的每个子层之后都有一个归一化步骤。此外，每个子层的输出都与其输入相加（残差连接），以帮助缓解梯度消失问题，从而允许更深的模型。这个过程在进入前馈神经网络之后也会重复。

编码器工作流程：多头注意力之后的归一化和残差连接
图片由作者提供。编码器工作流程。多头注意力之后的归一化和残差连接。

步骤 3.3 前馈神经网络

归一化残差输出的旅程继续，它会通过一个逐点前馈网络，这是进行额外细化的关键阶段。

将此网络想象成一对线性层，中间夹着一个 ReLU 激活函数，充当桥梁。处理完毕后，输出会走一条熟悉的路径：它会循环回来并与逐点前馈网络的输入合并。

这次重聚之后是另一轮归一化，确保一切都得到良好调整并为接下来的步骤做好同步。

编码器工作流程：前馈神经网络子层
图片由作者提供。编码器工作流程。前馈神经网络子层。

步骤 4 - 编码器的输出

最终编码器层的输出是一组向量，每个向量都代表具有丰富上下文理解的输入序列。然后，该输出将用作 Transformer 模型中解码器的输入。

这种仔细的编码为解码器铺平了道路，引导它在解码时注意输入中的正确单词。

可以把它想象成建造一座塔，你可以堆叠 N 个编码器层。这个堆栈中的每一层都有机会探索和学习注意力的不同方面，就像知识的层次一样。这不仅使理解多样化，而且可以显着增强 Transformer 网络的预测能力。

解码器工作流程

解码器的作用集中在制作文本序列上。与编码器类似，解码器也配备了一组类似的子层。它拥有两个多头注意力层、一个逐点前馈层，并在每个子层之后都加入了残差连接和层归一化。

图片由作者提供。编码器的全局结构。

这些组件的功能方式类似于编码器的层，但有一个转折：解码器中的每个多头注意力层都有其独特的任务。

解码器过程的最后一步涉及一个线性层，用作分类器，最后再用一个 softmax 函数来计算不同单词的概率。

Transformer 解码器具有专门设计的结构，可以通过逐步解码编码信息来生成此输出。

值得注意的是，解码器以自回归方式运行，以一个开始标记启动其过程。它巧妙地使用先前生成的输出列表作为其输入，并与来自编码器的、富含来自初始输入的注意力信息的输出协同工作。

这种解码的顺序舞蹈一直持续到解码器达到一个关键时刻：生成一个标志着其输出创建结束的标记。

步骤 1 - 输出嵌入

在解码器的起跑线上，该过程与编码器的过程相似。在这里，输入首先通过一个嵌入层。

步骤 2 - 位置编码

在嵌入之后，再次像编码器一样，输入通过位置编码层。此序列旨在产生位置嵌入。

然后，这些位置嵌入被输送到解码器的第一个多头注意力层，在那里，针对解码器输入的注意力分数被仔细计算。

步骤 3 - 解码器层堆栈

解码器由一堆相同的层组成（在原始 Transformer 模型中为 6 层）。每个层都有三个主要子组件：

步骤 3.1 掩码自注意力机制

这类似于编码器中的自注意力机制，但有一个关键区别：它阻止位置关注后续位置，这意味着序列中的每个单词都不会受到未来标记的影响。

例如，在计算单词“are”的注意力分数时，重要的是“are”不能窥视序列中后续的单词“you”。

解码器工作流程：第一个多头注意力掩码
图片由作者提供。解码器工作流程。第一个多头注意力掩码。

这种掩码确保了对特定位置的预测只能依赖于其之前位置的已知输出。

步骤 3.2 - 编码器-解码器多头注意力或交叉注意力

在解码器的第二个多头注意力层中，我们看到了编码器和解码器组件之间的独特相互作用。在这里，来自编码器的输出同时扮演查询和键的角色，而来自解码器第一个多头注意力层的输出则充当值。

这种设置有效地将编码器的输入与解码器的输入对齐，使解码器能够识别和强调编码器输入中最相关的部分。

在此之后，来自第二个多头注意力层的输出然后通过一个逐点前馈层进行细化，从而进一步增强了处理。

解码器工作流程：编码器-解码器注意力
图片由作者提供。解码器工作流程。编码器-解码器注意力。

在这个子层中，查询来自前一个解码器层，而键和值来自编码器的输出。这使得解码器中的每个位置都可以关注输入序列中的所有位置，从而有效地将来自编码器的信息与解码器中的信息集成在一起。

步骤 3.3 前馈神经网络

与编码器类似，每个解码器层都包含一个全连接的前馈网络，该网络分别且相同地应用于每个位置。

步骤 4 线性分类器和 Softmax 用于生成输出概率

数据通过 Transformer 模型的旅程最终以通过一个最终的线性层而告终，该线性层充当分类器。

该分类器的大小对应于所涉及的总类别数（词汇表中包含的单词数）。例如，在一个有 1000 个不同类别代表 1000 个不同单词的场景中，分类器的输出将是一个包含 1000 个元素的数组。

然后将此输出引入 softmax 层，该层将其转换为一系列概率分数，每个分数都介于 0 和 1 之间。这些概率分数中最高的一个是关键，其对应的索引直接指向模型预测为序列中下一个的单词。

解码器工作流程：Transformer 的最终输出
图片由作者提供。解码器工作流程。Transformer 的最终输出。

归一化和残差连接

每个子层（掩码自注意力、编码器-解码器注意力、前馈网络）之后都有一个归一化步骤，并且每个子层周围还包含一个残差连接。

解码器的输出

最后一层的输出通过一个线性层和一个 softmax 层转换为一个预测序列，以生成词汇表上的概率。

解码器在其操作流程中，将新生成的输出合并到其不断增长的输入列表中，然后继续解码过程。这个循环重复进行，直到模型预测出一个特定的标记，标志着完成。

以最高概率预测的标记被指定为结束类别，通常由结束标记表示。

再次记住，解码器不限于单个层。它可以由 N 个层构成，每个层都在从编码器及其前一层接收到的输入的基础上构建。这种分层架构允许模型使其焦点多样化，并在其注意力头之间提取不同的注意力模式。

这种多层方法可以显着增强模型的预测能力，因为它对不同的注意力组合有了更细致的理解。

最终的架构类似于这样（来自原始论文）：

图片由作者提供。Transformer 的原始结构。

为了更好地理解这个架构，我建议您按照用 PyTorch 构建 Transformer 的教程从头开始应用 Transformer。

现实生活中的 Transformer 模型

BERT

谷歌于 2018 年发布的 BERT 是一个开源的自然语言处理框架，它以其独特的双向训练彻底改变了 NLP，这使得模型能够对下一个单词应该是什么做出更具上下文信息的预测。

通过从一个单词的各个方面理解上下文，BERT 在问答和理解模糊语言等任务上的表现优于以前的模型。其核心使用 Transformer，动态连接每个输出和输入元素。

BERT 在维基百科上进行了预训练，在各种 NLP 任务中表现出色，促使谷歌将其集成到其搜索引擎中以实现更自然的查询。这项创新引发了一场开发先进语言模型的竞赛，并显着提高了该领域处理复杂语言理解的能力。

要了解有关 BERT 的更多信息，您可以查看我们介绍 BERT 模型的另一篇文章。

LaMDA

LaMDA（对话应用语言模型）是谷歌开发的基于 Transformer 的模型，专为对话任务设计，并在 2021 年谷歌 I/O 主题演讲中发布。它们旨在生成更自然、更具上下文相关性的响应，从而增强各种应用中的用户交互。

LaMDA 的设计使其能够理解和响应广泛的主题和用户意图，使其成为聊天机器人、虚拟助手以及其他动态对话至关重要的交互式 AI 系统应用的理想选择。

这种对对话理解和响应的关注标志着 LaMDA 在自然语言处理和 AI 驱动的通信领域取得了重大进步。

如果您有兴趣进一步了解 LaMDA 模型，可以通过 LaMDA 的文章获得更好的理解。

GPT 和 ChatGPT

由 OpenAI 开发的 GPT 和 ChatGPT 是先进的生成模型，以其生成连贯且上下文相关的文本的能力而闻名。GPT-1 是其于 2018 年 6 月发布的第一个模型，而最具影响力的模型之一 GPT-3 则于两年后的 2020 年发布。

这些模型擅长各种任务，包括内容创作、对话、语言翻译等。GPT 的架构使其能够生成与人类写作非常相似的文本，使其在创意写作、客户支持甚至编码辅助等应用中非常有用。ChatGPT 是为对话上下文优化的变体，擅长生成类似人类的对话，从而增强了其在聊天机器人和虚拟助手中的应用。

其他变体

基础模型，特别是 Transformer 模型的领域正在迅速扩大。一项研究确定了 50 多个重要的 Transformer 模型，而斯坦福大学的小组评估了其中的 30 个，承认该领域的快速发展。NLP Cloud 是一家创新的初创公司，是 NVIDIA Inception 计划的一部分，它在商业上利用大约 25 个大型语言模型为航空公司和药店等各个行业服务。

将这些模型开源的趋势越来越明显，像 Hugging Face 的模型中心这样的平台处于领先地位。此外，还开发了许多基于 Transformer 的模型，每个模型都专门用于不同的 NLP 任务，展示了该模型在不同应用中的多功能性和效率。

您可以在另一篇关于基础模型的文章中了解更多关于所有现有基础模型的信息，该文章讨论了它们是什么以及哪些是使用最广泛的。