文章目录

1. 背景
2. 方法
- 2.1 长语义id
- - 2.1.1 获取 item embedding
  - 2.1.2 item embedding 离散化
- 2.2 并行生成语义 id
- - 2.2.1 训练（item串行，token并行）
  - 2.2.2 高效 logit 打分
  - - 暴力枚举式打分：
    - 高效实现：
    - 复杂度分析：
- 2.3 图约束推理 Top-k
3. 实验
- 3.1 主试验
- 3.2 推理效率分析
- 3.3 消融实验
- 3.4 语义id长度
- 3.5 冷启动
- 3.6 推理参数 b/k/q
4. 总结

来学一下 KDD2025 的一篇 Meta 的关于生成式推荐的文章：RPG（ Recommendation with Parallel semantic ID Generation）。

论文链接：https://arxiv.org/pdf/2506.05781

代码链接：https://github.com/facebookresearch/RPG_KDD2025

1. 背景

生成式推荐大部分都是将每个 item 通过 codebook 拆分成多个语义id（sid），这点就不说了。文中提到一个效率瓶颈，就是说这种自回归的方式延迟高，比如一个 item 用 3 个 sid 表示，就需要经过 3 次 decoder，还需要 beam-search 等策略生成多个候选，每一步都要维护多个”备选拼法“，比如我们想要通过 beam-search 得到 top 512，就需要在通过 bos 生成 sid0 的时候保留 top 512，然后再第二步的时候，需要将这 512 个同时输入 decoder，并将生成的 sid1 也保留 top 512，在这 262144 的概率组合中，选择 top512，再继续将这 512 个 sid0-sid1组合输入到 decoder 第三步得到 sid2 的 top 512，然后再从 262144 个概率组合中，选择 top 512 的 sid0-sid1-sid2，得到 top 512的结果。这样需要跑大量的推理，耗时算力都比较大。

上面的方法还是说用 3 个语义id 去表示一个 item 的情况，但是 token 太少，表达力不够，现实中一个 item 可能属性、内容很丰富，只用 3 个 token来描述肯定难以把 item 丰富的语义细致地编码出来，也就是说：token 越少，模型能表达的内容越有限；token越多，推理资源越扛不住。当然上面这种 3 个语义id 的方法肯定需要 RQ 的，不然其实 3 个 token 表达的信息真的太少了，用了 RQ 其实应该还好。RQ 的话每层 codebook 就是有递进关系的了。

本文对比这篇 VQ-Rec 这篇文章是采用 Product Quantization（PQ）的方式，这种方式就是将一个 item embedding 比如 1024 维度，如果要分成 8 个 token，就是切成 8 份，每份 128 维，每份就是一个独立的子空间，每份子空间都配一个独立的 codebook，每个 codebook 大小就取决于需求了，假设是 8192 个吧，训练 codebook 采用 K-means 聚类，对每个子空间，用 K-means 聚类算法，聚出 8192 个中心点表示 8192 个语义id。对于一个 item，我们可以将其切分，然后用其每个 128 维 embedding 去各个 codebook 中找对应的 sid，拼成 8 个 sid，这 8 个 sid 就可以看做是这个 item 的语义id。实际推荐或下游任务，如果需要变回向量，直接把 8 个 sid 对应的 8 个中心向量查出来，拼接成最终的 item embedding。

对于并行生成 RPG 来说有两个挑战：

解码空间稀疏：所有 token 并行生成后，每个 token 之间没有顺序以来，互不影响，”合法“的 sid 组合在巨大的组合空间中其实极其稀少，比如 8 个 sid 每个 codebook 有 8192 个 token 就 8192⁸ 大约 10³⁰ 个组合，现实实际中，item 最多也是亿级 10 ⁹ ，所以就会有大量 sid 组合在实际商品池力根本不存在。
高效无序解码：推荐系统要为每个用户生成 top-k ，如果把所有可能得 token 组合都枚举出来就失去了并行生成的效率优势。传统 beam-search 方法， token是有顺序的，可以依次生成，但是 RPG 方法里，token 是无序并行生成的，不需要按照固定顺序生成，所以不能用传统的有序解码策略。怎样才能在不遍历所有 token 组合的情况下，快速精准的找到真实存在的得分最高的 item id？

2. 方法

在这里插入图片描述

2.1 长语义id

2.1.1 获取 item embedding

本文采用两种将 text --> embedding 的 embedding模型 sentence-t5-base 以及更强大的 openAI 的 text-emb-3-large，实验如下：

在这里插入图片描述

作者结论：对于基于 OPQ 的 RPG 来说，换用更好的 embedding 模型，效果提升；但是对于基于 RQ 的 TIGER 来说，效果差异不大。

2.1.2 item embedding 离散化

主流离散化方式有两种：RQ、PQ。

本文选择 PQ/OPQ，因为 PQ 并行预测友好，生成的 token 可以同时独立预测，不像 RQ 那样每一步都依赖前面的 token；表达均衡且可扩展：RQ 生成的 token 序列会出现 ”某些 token 很重要，某些 token 没啥用“的现象（信息分布不均），还容易随着 token 变多而失控（可扩展性差）。而 PQ/OPQ 各个 token 携带的信息比较均衡、规模也好扩展。

2.2 并行生成语义 id

2.2.1 训练（item串行，token并行）

训练目标是让模型能一次性并行预测所有 token，而不是像传统自回归那样一步步生成。

假设用户历史行为序列编码成向量 $s$ ，预测目标 item 的 sid $(c_{t,1}, \dots, c_{t,m})$ 。

训练，最大化整个语义ID各个位的概率乘积（即并行多位分类）：
$\mathcal{L} = -\sum_{j=1}^{m} \log \mathbb{P}^{(j)}(c_{t,j} | s)$

其中，第 $j$ 位token的概率 $\mathbb{P}^{(j)}(c_{t,j} | s)$ 通过下式计算：

$\mathbb{P}^{(j)}(c_{t,j}|s) = \frac{\exp(\mathbf{e}_{c_{t,j}}^\top \cdot \mathbf{g}_j(s)/\tau)}{\sum_{c \in C^{(j)}} \exp(\mathbf{e}_c^\top \cdot \mathbf{g}_j(s)/\tau)}$

$\mathbf{g}_j(s)$ 是将序列表示 $s$ 投影到第 $j$ 个 codebook 空间的映射， $\tau$ 是温度超参数。

2.2.2 高效 logit 打分

在模型训练好后，推理阶段的目标是：给定用户历史行为（编码为 $s$ ），计算每个候选商品的 sid组合的匹配分数，挑出 Top-K 推荐。

暴力枚举式打分：

理论上：每个 item i 有自己的 sid $c_{i,1},…,c_{i,m})$ 。
按照训练时的loss公式，可以为每个 item i 打分： $\text{score}i = \sum{j=1}^{m} \log p_{c_{i,j}}^{(j)}$
这里的 $p_{c_{i,j}}^{(j)}$ ，就是用户序列 $s$ 在第 $j$ 位 token 上，预测它是 $c_{i,j}$ 的概率。

高效实现：

对于每一层 codebook（总共 $m$ 层），先将用户行为序列 $s$ 经过投影（ $\mathbf{g}_j(s)$ ）和温度缩放（ $\tau$ ），与所有 codebook 的 embedding 计算点积（可以理解为分类 logit），再 softmax，得到该层所有 token 的概率分布 $p^{(j)}$ ：
$p^{(j)} = \text{softmax}\left( \frac{E_j \cdot \mathbf{g}_j(s)}{\tau} \right) \in \mathbb{R}^{M}$

$E_j$ 是第 $j$ 层 codebook 的 embedding 表， $M$ 是每层 codebook 的 token 数量（比如256）。
这一步只算 $m$ 层，每层 $M$ 个logit，和商品数量无关

对于任意一个商品 $i$ ，它的 sid组合是 $c_{i,1}, …, c_{i,m})$ ，直接取出每层对应 token 的概率 $p_{c_{i,j}}^{(j)}$ ，取对数相加：
$\text{score}_i = \sum_{j=1}^{m} \log p_{c_{i,j}}^{(j)}$
只需查表+加法，就能算出每个商品的得分，最后选 Top-k 即可。