学习资料来源于字母站大学

1 Transformer架构

基于编码器-解码器的架构来处理序列对。
跟使用注意力的seq2seq不同，Transformer是基于纯注意力。

2 注意力

2.1 自注意力机制

使用注意力：需要根据整个序列进行预测，对于同一input，不同的上下文输出不同，序列长度也不同，无法用固定窗口。

Self-attention架构示意图

首先要得到一个能表示输入向量本身及其与序列其他向量的关联性( $\alpha$ )的向量， $\alpha$ 即注意力分数。

请添加图片描述
根据 $\alpha$ 可以得知，哪些向量和 $a$ 关联性最高，就可以根据 $\alpha$ 抽取信息

将所有的 $a$ ， $q$ 拼起来成矩阵，就一次性计算得到了所有的 $q$ ，同理， $k$ ， $v$ 也通过矩阵运算一次性得到。

注意力分数的计算同样将 $q$ ， $k$ 的点乘过程拼接成矩阵，然后对每一列做softmax

请添加图片描述

总过程：

2.2 多头注意力

由于所谓的“相关性”不是一个固定的定义，可以有多种表现形式，所以在用 $q$ 寻找不同的 $k$ 时，需要不同的 $q$ 负责得到不同种类的相关性，同时，由于有多个 $q$ ，所以也有多个 $k$ 和多个 $v$ ，相同类别的 $q$ ， $k$ ， $v$ 一起计算
请添加图片描述

3 Add&LayerNorm

Transformer在自注意力块的输出部分又加上了输入，然后一起输入Norm层。
Transformer的LayerNorm计算公式：
$y=\frac{x-E(x)}{\sqrt{Var(x)+\epsilon}}*\alpha+\beta$
其中 $\alpha$ ， $\beta$ 是可学习参数，用来防止输出数据落在后续的激活函数近似线性的范围内，失去激活函数非线性特性。 $\epsilon$ 用来防止分母为0。
LayerNorm用来稳定神经网络的训练，将输入归一化到均值为0方差为1的分布中，避免训练中产生梯度消失或梯度爆炸。LayerNorm是在最后一个特征维度做归一化（一个单词内部），可以保证稳定性。

4 解码器——交叉注意力

对于Transformer架构解码器中间部分，有来自Encoder的输入，也有来自Decoder的输入，这部分架构叫做交叉注意力。总的来说，交叉注意力的 $q$ 来自于Decoder， $k$ ， $v$ 来自于Encoder，也就是用Decoder的 $q$ 来抽取Encoder信息作为下一步的输入。
交叉注意力计算示意图

面试题篇

1 Transformer/RNN/CNN对比

各个模型对于NLP任务需要抽取的特征的性能：

上下文语义（方向、长度）：Transformer > RNN > CNN
序列特征：RNN > Transformer > CNN
速度：CNN > Transformer > RNN

Transformer擅长抽取上下文语义特征的原因：RNN只能对句子进行单向的编码，CNN只能对短句进行编码，而transformer既可以同时编码双向的语义，又可以抽取长距离特征，在NLP特征抽取方面能力更强。

CNN其实是self-attention的特例。单向RNN未考虑右边序列的input且顺序执行，self-attention是并行的。

2 Transformer为什么将特征维度拆分成多个头

从不同角度捕捉信息，防止每个输入对自身注意力分数过高，增强模型表达能力
实现并行计算，提高计算效率
缓解梯度消失：当维度 $d$ 很大时，点积结果的方差也会很大，做softmax后会变成近似one-hot编码，导致梯度消失。

3 为什么使用乘性注意力而不用加性注意力

在GPU场景下，矩阵乘法的计算效率更高

4 $\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\frac{QK^T}{\sqrt{d_k}}V$ 为什么要除以 $\sqrt{d_k}$

如果两个矩阵都是服从正态分布的，矩阵相乘后由于元素是相乘再相加，那么结果就变成均值为0，方差为 $d$ 的分布了，方差如果很大，和问题1的原因相同，可能会产生很分散的数值，使得softmax后导致梯度消失，所以要除以标准差恢复到正态分布。
梯度消失举例：对于 $z = [1000, 1, - 1000]$ ，计算softmax:
$\mathrm{softmax}(z)=[\frac{d^{1000}}{e^{1000}+e^1+e^{-1000}},\frac{e^1}{e^{1000}+e^1+e^{-1000}},\frac{e^{-1000}}{e^{1000}+e^1+e^{-1000}}]\approx[1,0,0]$
对softmax求梯度
$\mathrm{softmax}(z_i)=\frac{e^{z_i}}{\sum_{k=1}^{C}e^{z_k}},i\in \{1,2,...,C\}$
$\frac{\partial \mathrm{softmax}(z_i)}{\partial z_j}=\begin{cases} \mathrm{softmax}(z_i),\mathrm{if}\ i=j \\-\mathrm{softmax}(z_i)·\mathrm{softmax}(z_j),\mathrm{if}\ i\neq j \end{cases}$
带入数值，对于 $\mathrm{softmax}(z_i)\approx 1$ ，梯度为0，对于其他位置 $j$ $\mathrm{softmax}(z_i)\approx 0$ ，梯度同样为0，导致梯度消失。