BERT(双向编码器):
预训练任务:
- 掩码语言模型(MLM):随机掩盖15%的token,其中:
- 80%替换为[MASK]
- 10%替换为随机token
- 10%保持原样
- 下一句预测(NSP):判断两个句子是否连续(后续版本已移除)
训练特点:
- 使用双向Transformer编码器
- 同时利用左右上下文信息
- 适合理解类任务:分类、标注、相似度计算
GPT(自回归解码器):
预训练任务:
- 因果语言模型(CLM):给定前文预测下一个token
- 只能利用左侧上下文,无法看到右侧信息
训练特点:
- 使用单向Transformer解码器(带掩码注意力)
- 通过next token prediction训练