生成式人工智能实战 | 自回归模型详解与实现
-
- 0. 前言
- 1. 文本生成模型分析
- 2. 数据处理
-
- 2.1 数据预处理
- 2.2 创建训练数据批次
- 3. 模型构建与训练
-
- 3.1 构建 LSTM 模型
- 3.2 训练 LSTM 模型
- 4. 生成文本
-
- 4.1 通过预测下一个 token 生成文本
- 4.2 控制文本生成的创意性
0. 前言
本节通过训练一个基于长短期记忆 (Long Short-Term Memory, LSTM) 网络的文本生成模型,系统介绍了自然语言处理 (Natuarl Language Processing
, NLP
) 任务的核心技术流程。首先对《安娜·卡列尼娜》文本进行分词和索引化处理,构建词元到整数的映射关系。模型采用序列到序列的训练方式,通过预测下一个词元来学习文本特征。在生成阶段,模型以自回归方式逐步生成文本,并可通过温度和 Top-K
采样调控生成结果的随机性与创造性。虽然 LSTM
模型存在长程依赖等局限性,但该实践完整涵盖了分词、词嵌入、序列预测等 NLP
基础技术,为后续学习 Transformer
和注意力机制等高级模型奠定基础。
1. 文本生成模型分析
训练文本的选择取决于期望的输出内容。本节将以一部长篇小说作为训练文本,它其丰富的内容使模型能够有效地学习和模仿特定的写作风格,大量的文本数据有助于提升模型对文本风格的掌握能力。同时,小说的篇幅通常不会过长,这有助于控制训练时间。对于本节的长短期记忆 (Long Short-Term Memory, LSTM) 网络模型训练,我们将使用小说《安娜·卡列尼娜》的文本。
LSTM
模型无法直接处理原始文本。因此,我们需要将文本转换为数值形式。首先将文本分解为较小的片段,这一过程称为分词 (tokenization
),每个片段称为一个