TensorFlow深度学习实战——Transformer变体模型
- 0. 前言
- 1. BERT
- 2. GPT-2
- 3. GPT-3
- 4. Reformer
- 5. BigBird
- 6. Transformer-XL
- 7. XLNet
- 8. RoBERTa
- 9. ALBERT
- 10. StructBERT
- 11. T5 和 MUM
- 12. ELECTRA
- 13. DeBERTa
- 14. 进化 Transformer 和 MEENA
- 15. LaMDA
- 16. Switch Transformer
- 17. RETRO
- 18. Pathways 和 PaLM
- 相关链接
0. 前言
在 Transformer 模型提出之后,研究人员提出了大量基于 Transformer
的变体模型。本节中,介绍了流行的 Transformer
变体模型。
1. BERT
BERT
(Bidirectional Encoder Representations from Transformers
) 是 Google AI
研究团队在 2018
年开发的语言表示模型,该模型的重要思想包括:
BERT
通过双向自注意力 (bidirectional self-attention
) 考虑每个词的上下文,既包括左侧也包括右侧。- 训练通过随机掩码输入词元 (
token
) 进行,并避免循环,以便单词不能间接看到自身。在自然语言处理 (Natural Language Processing
,NLP
) 中,称为填空 (fill in the blank
)。换句话说,预训练任务掩码少