注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

  • GPT多模态大模型与AI Agent智能体系列一百一十九
    • 谷歌TIGER爆火!生成式召回颠覆推荐系统:用语义ID破解冷启动+多样性难题,3大数据集性能碾压传统模型
    • 一、传统推荐系统的“三大困境”,TIGER直击痛点
    • 二、TIGER两大核心模块:从语义ID到生成式召回的全链路设计
      • 1. 语义ID生成:用RQ-VAE给物品“编有意义的码”
      • 2. 生成式检索:用Transformer直接“生成”下一个物品ID
    • 三、实验验证:性能碾压传统模型,还解锁两大新能力
      • 1. 冷启动推荐:新物品“零数据”也能推
      • 2. 可控多样性推荐:用“温度采样”打破推荐固化
    • 四、核心结论:TIGER为何能成为推荐系统的新范式?
    • 五、行业启示:TIGER的落地场景与未来方向
      • 更多技术内容
  • 总结

GPT多模态大模型与AI Agent智能体系列一百一十九

谷歌TIGER爆火!生成式召回颠覆推荐系统:用语义ID破解冷启动+多样性难题,3大数据集性能碾压传统模型

2023年谷歌提出的TIGER模型,凭借“生成式召回”思路打破传统推荐系瓶颈,成为近年来推荐领域的里程碑研究。它以“语义ID+seq2seq生成”为核心,重构了从物品表示到检索的全流程,不仅在三大公开数据集上实现性能跃升,更解决了冷启动、推荐多样性等行业痛点,为大规模推荐系统提供了全新范式。

一、传统推荐系统的“三大困境”,TIGER直击痛点

长期以来,主流推荐系统依赖“双编码器+ANN搜索”模式:将用户和物品嵌入同一向量空间,通过近似最近邻搜索匹配候选物品。但这种模式存在难以突破的局限:

  1. 物品表示低效:用随机原子ID作为物品特征,无法共享相似物品知识,且数十亿级物品的嵌入存储消耗巨大;
  2. 反馈循环固化:模型依赖用户历史交互数据,易陷入“越推越窄”的困境,对新物品(冷启动场景)几乎无法处理;
  3. 泛化能力薄弱:依赖索引构建,新物品需重新训练或更新索引,难以适配动态变化的物品语料库。

而TIGER的核心创新——语义ID生成+生成式检索,从根源上解决了这些问题。

二、TIGER两大核心模块:从语义ID到生成式召回的全链路设计

TIGER的框架分为“语义ID生成”和“生成式推荐训练”两阶段,环环相扣实现端到端检索:

1. 语义ID生成:用RQ-VAE给物品“编有意义的码”

传统物品ID是随机、无语义的,而TIGER的“语义ID”是基于物品内容特征生成的离散token元组,核心工具是残差量化变分自编码器(RQ-VAE)

  • 第一步:内容嵌入。用预训练的Sentence-T5模型,将物品的标题、品牌、类别等文本特征,转化为768维的语义嵌入;
  • 第二步:层次化量化。RQ-VAE通过3层残差量化(每层一个独立codebook,大小256),将连续嵌入转化为3个codeword组成的元组;
  • 第三步:去碰撞处理。若多个物品映射到同一语义ID,附加第4个token确保唯一性,最终形成4长度的唯一语义ID(如(10,21,35,0))。

这种设计的关键优势在于层次化语义:语义ID的前几层codeword对应“粗粒度类别”,后几层对应“细粒度特征”。例如(10,21,35,0)中,“10”可能代表“美妆类”,“21”代表“口红子类”,相似物品的语义ID会有重叠,天然实现知识共享。

对比局部敏感哈希(LSH)、分层k-means等其他量化方法,RQ-VAE的优势显著:实验显示,在Beauty数据集上,RQ-VAE生成的语义ID比LSH提升12%的Recall@5,比随机ID提升23%,且能保留层次化语义。

2. 生成式检索:用Transformer直接“生成”下一个物品ID

传统推荐是“用户嵌入→ANN搜索→匹配候选物品”,而TIGER是端到端生成:将推荐任务转化为“序列预测任务”,用Transformer模型直接解码下一个物品的语义ID:

  • 输入构造:用户ID token + 历史交互物品的语义ID token序列(如“用户A+物品1语义ID+物品2语义ID”);
  • 模型训练:用编码器-解码器架构的Transformer,自回归预测下一个物品的语义ID token(逐token生成4长度元组);
  • 检索逻辑:无需构建物品索引,Transformer的参数本身就是“语义索引”,预测出语义ID后,直接通过查找表映射到具体物品。

这种“生成式”思路的颠覆性在于:无需ANN搜索,无需存储海量嵌入,模型直接“写出”目标物品ID,大幅降低部署成本。

三、实验验证:性能碾压传统模型,还解锁两大新能力

谷歌在Amazon Product Reviews的三大数据集(Beauty、Sports and Outdoors、Toys and Games)上,将TIGER与GRU4Rec、SASRec、BERT4Rec、S³-Rec等8种主流序列推荐模型对比,结果堪称“降维打击”:

  • 性能跃升:在Beauty数据集上,TIGER的NDCG@5比SASRec提升29%,Recall@5比S³-Rec提升17.3%;在Toys and Games数据集上,NDCG@5提升21%,且所有数据集上均刷新SOTA;
  • 效率优势:无需构建物品索引,存储成本仅为传统双编码器模型的1/10,新物品无需重新训练,只需生成语义ID即可接入。

更重要的是,TIGER还解锁了传统模型不具备的两大核心能力

1. 冷启动推荐:新物品“零数据”也能推

传统模型对无交互数据的新物品束手无策,而TIGER只需用RQ-VAE为新物品生成语义ID,即可纳入推荐范围。实验中,将Beauty数据集5%的物品设为“未见新物品”,TIGER的Recall@5比基于语义嵌入的KNN方法提升15%~20%,且新物品占比越高(最高30%),优势越明显。

2. 可控多样性推荐:用“温度采样”打破推荐固化

传统模型的多样性依赖复杂的重排策略,而TIGER利用语义ID的层次化特性,通过调整解码阶段的“温度参数”即可控制多样性:

  • 高温度(如1.5):对语义ID的前几层codeword随机采样,推荐不同粗粒度类别的物品,提升整体多样性;
  • 低温度(如0.5):仅对后几层codeword微调,在同一类别内推荐细粒度差异的物品,保证相关性。

实验用Entropy@K指标衡量多样性,结果显示:温度从0.1提升到1.5时,Beauty数据集的Entropy@10提升40%,且NDCG仅下降3%,实现“多样性与相关性”的平衡。

四、核心结论:TIGER为何能成为推荐系统的新范式?

TIGER的价值不仅在于性能提升,更在于重构了推荐系统的设计思路,其核心结论可总结为四点:

  1. 语义ID优于随机ID:基于内容的语义ID能共享相似物品知识,泛化能力远超随机原子ID,是突破反馈循环的关键;
  2. 生成式检索更高效:无需索引构建,Transformer参数即索引,大幅降低存储和部署成本,适配大规模物品库;
  3. 层次化设计解锁新能力:语义ID的粗/细粒度划分,天然支持冷启动和可控多样性,解决行业核心痛点;
  4. 工程落地友好:无效ID比例极低(前10推荐中仅0.1%~1.6%),且可通过“前缀匹配”(如用前3个codeword匹配相似物品)进一步优化。

五、行业启示:TIGER的落地场景与未来方向

目前TIGER已在电商、内容推荐等领域展现出落地潜力:

  • 电商场景:可快速接入新品类商品,解决“新品冷启动”问题,同时通过温度采样提升用户探索性消费;
  • 内容平台:用语义ID关联相似文章、视频,打破“兴趣固化”,提升用户长期留存;
  • 企业服务:构建基于语义ID的知识库推荐,实现“文档内容→语义匹配→精准推荐”的全链路。

未来,TIGER的优化方向也很明确:一是提升语义ID的生成精度(如融合图像、语音等多模态特征);二是优化无效ID的处理(如动态调整codebook大小);三是拓展到多目标推荐(如同时优化点击率、转化率)。

对于推荐算法从业者而言,TIGER的最大启示是:物品表示的“语义化”和检索方式的“生成化”,将是下一代推荐系统的核心方向。掌握这一思路,才能在海量物品、动态场景的推荐需求中占据主动。

下一篇内容详解更多…

更多技术内容

更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏

实战驱动,掌握大模型开发全流程

智能涌现与 AGI 前瞻,抢占技术高地

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/97543.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/97543.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/97543.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分享一个实用的B站工具箱(支持音视频下载等功能)

文章目录 📖 介绍 📖 🏡 演示环境 🏡 📒 一款实用的B站工具箱 📒 💥 项目亮点 💥 🛠️ 下载与安装 🚀 使用指南 📢 注意事项 ⚓️ 相关链接 ⚓️ 📖 介绍 📖 很多小伙伴在B站追番或者学习时,总会遇到一个很头疼的问题:想把视频下载到本地,要么被限…

大话 IOT 技术(4) -- 答疑篇

文章目录前言手机能与设备直接通信吗多协议能统一用一个吗假设我们统一用http协议假设我们统一用mqtt协议bypass服务端和设备不能mqtt直接通信设备必有wifi 和蓝牙功能设备为什么不能自己连接网络配网模式是什么后话当你迷茫的时候,请点击 物联网目录大纲 快速查看前…

机器视觉学习-day14-绘制图像轮廓

1. 轮廓的概念轮廓是目标物体或者区域在图像外部的边界线,通常由一系列像素点相连组成,这些像素点共同构成了一个封闭的形状,这样形状就是轮廓。轮廓与边缘不同:轮廓是连续的,边缘可以连续也可以离散轮廓是完整的&…

Linux shell getopts 解析命令行参数

Linux shell getopts 解析命令行参数getopts语法 getopts 选项字符串 名称 [ 参数 ...]示例1(有前置冒号): while getopts ":hdo:" optname; do ...... done示例1(无前置冒号) while getopts "hdo:" optname…

DeepInteraction++基于多模态交互的自动驾驶感知与规划框架

DeepInteraction++基于多模态交互的自动驾驶感知与规划框架 1 论文核心概念 DeepInteraction++ 提出了一种名为"模态交互"(modality interaction)的新策略,用于自动驾驶中的多模态(LiDAR 和相机)感知任务。其核心思想是不将多模态信息融合为单一表示,而是分别…

忆联参与制定消费级SSD团体标准正式出版! 以“高可靠”引领行业提质增效与用户体验升级

引言​在AIPC爆发、数据价值凸显的当下,存储设备已超越简单容器,成为智能体验基石,其性能与可靠性直接关乎用户效率与资产安全。然而,消费级SSD长期缺乏统一权威的可靠性标准,使厂商缺乏质量对标依据,用户亦…

微服务搭建(SpringBoot + Dubbo + Nacos)

1.项目接口2. 编辑pom.xml和application.yml文件2.1父工程pom.xml<?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:s…

android中常见布局及其约束

0 布局的定义 布局可以理解为一种​​容器​​&#xff0c;用于​​组织与排列界面上的控件​​。 布局是一个相框&#xff0c;控件就是你要展示的照片。• 你&#xff08;布局规则&#xff09;决定这些照片怎么排列&#xff1a;是从上到下整齐放&#xff08;LinearLayout&am…

Rust语言能干什么

Rust 语言的应用范围非常广&#xff0c;几乎覆盖了现代软件开发的全部领域。它最初以“系统级语言”身份出道&#xff0c;但现在已经远远超出了这个范畴。下面我从几个关键方向给你梳理一下&#xff0c;Rust 到底能干什么&#xff0c;以及为什么在这些领域它特别有优势。 1. 系…

只需一个设置就可以解决Microsoft Edge浏览器打不开网页的问题

Microsoft Edge是一款功能强大的网络浏览器&#xff0c;预装在Windows 10、11系统中。通过这个简单易懂的教程&#xff0c;学习如何修复Microsoft Edge浏览器打不开的问题。1、打开计算机找到C盘&#xff0c;双击打开&#xff1a;2、打开【用户】➜【Admin】➜【AppData】➜【L…

AI 应用 图文 解说 (二) -- 百度智能云 ASR LIM TTS 语音AI助手源码

文章的目的为了记录AI应用学习的经历&#xff0c;降低AI的入门难度。同时记录开发流程和要点有些记忆模糊&#xff0c;防止忘记。也希望可以给看到文章的朋友带来一些收获。 相关链接&#xff1a; AI 应用 图文 解说 (一) -- 百度智能云 实现 语音 聊天-CSDN博客 AI 应用 图文 …

计算机Python毕业设计推荐:基于Django的博客网站设计与实现【python/大数据/深度学习/机器学习定制】

精彩专栏推荐订阅&#xff1a;在下方主页&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; &#x1f496;&#x1f525;作者主页&#xff1a;计算机毕设木哥&#x1f525; &#x1f496; 文章目录 一、项目介绍二、…

当 AI 开始 “筛选” 信息:算法偏见会加剧认知鸿沟吗?如何构建公平的 AI 生态?

AI 筛选信息的现状与原理​在信息爆炸的时代&#xff0c;AI 筛选信息已成为各领域不可或缺的关键技术。在社交媒体平台上&#xff0c;如抖音、小红书等&#xff0c;AI 根据用户的点赞、评论、浏览历史等数据&#xff0c;精准推送用户可能感兴趣的内容&#xff0c;极大提升了用户…

2023年IEEE IOTJ SCI1区TOP,动态环境下无人机目标覆盖任务路径规划,深度解析+性能实测

目录1.摘要2.问题模型3.算法设计4.结果展示5.参考文献6.代码获取7.算法辅导应用定制读者交流1.摘要 无人机&#xff08;UAV&#xff09;作为物联网应用的重要工具&#xff0c;正广泛应用于智能农业监测、智能交通监测等领域&#xff0c;并逐渐成为国内外研究热点。然而&#x…

计算机视觉(四):二值化

二值化&#xff0c;就是将图像从彩色或灰度模式转换为只有两种颜色&#xff08;通常是黑色和白色&#xff09;的模式。这个过程的本质是设定一个阈值 (Threshold)&#xff0c;将图像中所有像素的灰度值与这个阈值进行比较。 基本原理 二值化的核心原理非常简单&#xff1a; 灰度…

(二)设计模式(Command)

文章目录项目地址一、设计模式1.1 Command Design1. 创建命令接口2. 创建支付的Command类3. CommandScheduler4. 使用1.2 Chain of Responsibility1. 接口创建2. 审批人3. 发起审批1.3 State Pattern1. 创建简单的状态机定义动作和状态状态机使用状态机1.x Iterator1.x Observe…

现代C++性能陷阱:std::function的成本、异常处理的真实开销

1. std::function 的成本 std::function 是一个通用的、类型擦除的函数包装器&#xff0c;它非常方便&#xff0c;可以存储和调用任何可调用对象&#xff08;函数、lambda、函数对象、bind表达式等&#xff09;。然而&#xff0c;这种灵活性是有代价的。 主要成本来源&#xff…

基于Spark的白酒行业数据分析与可视化系统的设计与实现

文章目录有需要本项目的代码或文档以及全部资源&#xff0c;或者部署调试可以私信博主项目介绍一、项目背景与研究意义二、系统整体架构三、系统功能设计四、应用场景与价值五、项目特色与创新点六、总结与展望每文一语有需要本项目的代码或文档以及全部资源&#xff0c;或者部…

织梦会员中心模板调用某个栏目名和栏目下文档的办法

大家在用到织梦dedecms时候&#xff0c;需要在会员中心模板调用栏目的名称和链接&#xff0c;还有某个栏目下的文档要怎么操作呢&#xff1f; 我们都知道&#xff0c;在会员中心模板&#xff0c;直接用dede:type或者dede:arclist标签是不行的&#xff0c;在会员中心调用只能用p…

区块链的法律定位:技术、工具还是资产?

高鹏律师首席数据官&#xff0c;数字经济团队创作AI辅助当我们谈论区块链时&#xff0c;我们在谈论什么&#xff1f;是那串不可篡改的哈希值&#xff0c;是去中心化的信仰图腾&#xff0c;还是藏在代码背后的权利密码&#xff1f;今天&#xff0c;我们不聊技术迭代的炫酷&#…