引言

看到一则报道[1]，重组后的Meta实验室在9月1号发布了一篇关于提升RAG解码效率的论文，提出的思路有点启发作用，于是把原文下载下来仔细看下。

论文标题：REFRAG: Rethinking RAG based Decoding

论文地址：https://arxiv.org/pdf/2509.01092

1. 动机

通过将外部知识检索结果与用户问题拼接后输入模型，检索增强生成（RAG）已成为提升模型回答质量的重要途径。

然而，这种机制的代价极其高昂：拼接的上下文通常包含数千甚至上万 Token，其中只有少数段落与问题密切相关，其余则是冗余信息。对于解码器而言，这意味着需要维护线性增长的 KV Cache，同时在预填充阶段进行近似二次复杂度的注意力计算，导致**首 Token 延迟（TTFT）**大幅增加，吞吐量下降。

现有的长上下文优化方法大多从稀疏注意力或高效缓存角度出发，但这些方案往往面向一般长文本任务，而未能利用 RAG 特有的“块对块低相关性”结构性特征。于是，REFRAG 的提出正是为了填补这一空白，它将 RAG 的解码过程重新设计为一个压缩、感知与扩展的动态过程，从而显著降低延迟与计算成本。

2. 框架

REFRAG 的核心思路是将检索得到的长上下文从 Token 级别提升到 Chunk 级别表示。

具检索文档会被切分为固定大小的块，每个块通过轻量级编码器（如 RoBERTa）生成一个压缩后的向量表示，再通过投影层映射到解码器可理解的 Token 空间。

这样，原本需要处理数千 Token 的解码器输入被压缩为几百个 Chunk Embedding，输入规模大幅缩短，注意力计算也随之减少。

并且，REFRAG 并未牺牲自回归生成的特性，Chunk Embedding 可以插入在任意位置，与原始 Token 并存，从而保持方法的普适性。

为了避免“一刀切”压缩带来的信息损失，REFRAG 还引入了一个轻量的强化学习策略，动态决定哪些 Chunk 必须保留原文 Token，哪些可以以压缩表示替代。这一机制使得模型能够在有限算力预算下，把计算资源分配到最关键的上下文部分。

整体流程如下图所示。

下图展示了REFRAG和其它方法在以下三个指标上的加速效果：

TTFT (Time to First Token): 首词元生成延迟，指的是模型接收到输入指令后，生成并输出第一个词元（token，可以理解为一个单词或一个汉字）所花费的时间。这个指标衡量的是模型的“反应速度”。
TTIT (Time to Iterative Token): 迭代词元生成时间，指的是在生成第一个词元之后，生成每一个后续词元所花费的时间。这个指标衡量的是模型生成连续文本的“输出速度”。
Throughput: 吞吐量，指的是单位时间内（通常是每秒）模型能够生成的总词元数量。这个指标是衡量模型整体处理效率和性能的关键指标，综合了启动延迟和生成速度。