Day 10-2: Mini-GPT完整手写实战 - 从组件组装到文本生成的端到端实现
📚 今日学习目标
- 掌握GPT架构组装:将Transformer组件组装成完整的生成模型
- 理解生成式预训练:掌握自回归语言建模的核心机制
- 端到端代码实现:从数据预处理到模型训练的完整流程
- 文本生成实战:训练Mini-GPT生成连贯的中文文本
🎯 核心概念:什么是GPT?
GPT (Generative Pre-trained Transformer) 是一种基于Transformer解码器的自回归语言模型,它通过预测下一个词来学习语言规律。
1. GPT vs BERT:架构差异对比
对比维度 | GPT (生成式) | BERT (理解式) | 核心区别 |
---|---|---|---|
架构设计 | 仅解码器 (Decoder-only) | 仅编码器 (Encoder-only) |