生成式人工智能实战 | 自回归模型详解与实现

- 0. 前言
- 1. 文本生成模型分析
- 2. 数据处理
- - 2.1 数据预处理
  - 2.2 创建训练数据批次
- 3. 模型构建与训练
- - 3.1 构建 LSTM 模型
  - 3.2 训练 LSTM 模型
- 4. 生成文本
- - 4.1 通过预测下一个 token 生成文本
  - 4.2 控制文本生成的创意性

0. 前言

本节通过训练一个基于长短期记忆 (Long Short-Term Memory, LSTM) 网络的文本生成模型，系统介绍了自然语言处理 (Natuarl Language Processing, NLP) 任务的核心技术流程。首先对《安娜·卡列尼娜》文本进行分词和索引化处理，构建词元到整数的映射关系。模型采用序列到序列的训练方式，通过预测下一个词元来学习文本特征。在生成阶段，模型以自回归方式逐步生成文本，并可通过温度和 Top-K 采样调控生成结果的随机性与创造性。虽然 LSTM 模型存在长程依赖等局限性，但该实践完整涵盖了分词、词嵌入、序列预测等 NLP 基础技术，为后续学习 Transformer 和注意力机制等高级模型奠定基础。

1. 文本生成模型分析

训练文本的选择取决于期望的输出内容。本节将以一部长篇小说作为训练文本，它其丰富的内容使模型能够有效地学习和模仿特定的写作风格，大量的文本数据有助于提升模型对文本风格的掌握能力。同时，小说的篇幅通常不会过长，这有助于控制训练时间。对于本节的长短期记忆 (Long Short-Term Memory, LSTM) 网络模型训练，我们将使用小说《安娜·卡列尼娜》的文本。
LSTM 模型无法直接处理原始文本。因此，我们需要将文本转换为数值形式。首先将文本分解为较小的片段，这一过程称为分词 (tokenization)，每个片段称为一个