重排01:物品相似性的度量、提升多样性的方法_哔哩哔哩_bilibili

github-PPT

前面的讨论中提到 在链路的最后进行重排,重排要插入广告和运营笔记,还要做规则打散,提高推荐的丰富性,比如说一个人特别爱看足球,但也不能一页所有内容全都给他推足球,需要多样性

粗排和精排 目标是对每个物品准确打分(融合reward)但没有考虑物品的相关性。

后处理主要为了提升多样性。从 n 个候选物品中选出 k 个,既要它们的总分高,也需要它们有多样性。

重排01:物品相似性的度量、提升多样性的方法

度量相似性可以通过属性标签向量

·物品属性标签:类目、品牌、关键词等
·下例根据一级类目、二级类目、品牌计算相似度。
·物品i 三个属性分别为:美妆、彩妆、香奈儿。
·物品j 三个属性分别为:美妆、香水、香奈儿。
·两两进行 相似度: sim1(i,j)=1,sim2(i,j)=0,sim3(i,j)=1 再进行加权。

双塔模型 分别对用户和物品计算一个向量;如果拿物品塔输出的向量 去刻画物品相似性。

新物品和长尾物品的点击量比较少,模型学不好。

基于图文内容的向量表征:

对图文笔记 图片用CNN 文字用BERT分别输出一个向量再拼起来。

如何训练 CNN和BERT?

如果外界数据集 迁移到小红书可能效果不好。如果小红书自己数据集 还需要人工标注?

可以CLIP预训练 对于图片一文本二元组,预测图文是否匹配。

优势:无需人工标注 因为大多数笔记中 图片和文字还是强相关的。(天然正负样本)

利用大规模图文对,通过对比学习训练图像编码器和文本编码器,让它们在同一个语义空间里对齐,从而实现跨模态理解

重排02:MMR 多样性算法(Maximal Marginal Relevance)

粗排/精排 给了一个物品本身的reward,后处理要兼具reward和多样性

可以维护一个已经选中的物品集合S,候选项集合R。从R选综合分数最高的加入S

多样性高 就是和S集合中物品最大相似度sim越小越好;对reward和sim进行加权得分MR

S集合累积比较大的时候 因为多样性 已经涵盖各种类型的物体了,这会导致R中物品算出的sim大多为1(都会S中有强相似度的 相当于这一项就无效了)

于是进行一个滑动窗口的操作,只用最新进入S的十个物体 去和R计算相似度。

一举两得 防止S集合过大 使得sim项无效,也降低了计算复杂度。

重排03:业务规则约束下的多样性算法

重排规则:为了用户体验的一些条件约束  如下列例子

1. 最多连续出现 k 篇某种笔记(比如小红书有图文类和视频类 不能全是图文/全是视频)

2. 每 k 篇笔记最多出现 1 篇某种笔记(推广广告等用户不太想经常看到的 不能出现太多)

3. 前 t 篇笔记最多出现 k 篇某种笔记(前t篇特别重要 在用户刷到的最前面 比如小红书的前4为首屏)

原来的上面的MMR算法 是对整个集合R为候选子集。

现在在这些规则下,在挑选max前要先对子集R根据规则筛一遍为R',再对R'找max。

重排04:DPP多样性算法

把物体分别表示为单位向量,夹角越大 相似度越低 多样性越高。

正交则多样性好 线性相关则多样性差,可以建模为 这些单位向量所对应的平行多面体的体积。

  

目标函数写成


 

加上滑动窗口和规则约束;先筛成R' 每次选最近的集合W 新行列式A 就是W∪(i∈R')

求解方法 加最好的 i 使得目标函数最大

 

 后面一项就是Schur 补 si

其中 si 为把 𝑖 加入 𝑆 后的 Schur 补,比较各 𝑖 时,只需比较 

优化计算速度主要来自 可继承的 Cholesky 分解 

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
    如若转载,请注明出处:http://www.pswp.cn/web/94760.shtml
    繁体地址,请注明出处:http://hk.pswp.cn/web/94760.shtml
    英文地址,请注明出处:http://en.pswp.cn/web/94760.shtml

    如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

    相关文章

    Axios多实例封装

    Axios多实例封装方案 我将为您提供一个完整的Axios多实例封装方案,包含基础封装、多实例管理和使用示例。 设计思路 创建基础axios实例封装,支持请求/响应拦截器实现多实例管理器,支持不同API端点配置提供统一的错误处理机制支持请求取消功…

    为量化从业者提供免费稳定的股票数据源:免费股票数据API获取实时数据、历史数据与技术指标(含多语言代码指南)实例代码演示与API文档说明

    ​ 近年来,股票量化分析因其科学、系统的研究方法,日益成为市场热点。而进入这一领域的首要步骤,正是获取全面、准确的股票数据——无论是实时交易行情、历史走势记录,还是企业财务与基本面信息,都是支撑量化策略的核心…

    [Sync_ai_vid] UNet模型 | 音频特征提取器(Whisper)

    第2章:LatentSync UNet模型 在第1章:唇形同步推理流程中,我们了解到唇形同步推理流程如同电影导演,协调各"专家模块"生成完美唇形同步视频。 本章将深入解析这个"工作室"中最核心的专家——LatentSync UNet…

    工业级TF卡NAND + 北京君正 + Rk瑞芯微的应用

    目录前言一:操作CS创世 SD NAND的常用命令1.查看SD设备2.挂载分区3.卸载分区4.分区管理5.格式化分区6.简单读写二:SD底层协议简要介绍三:对CS创世 SD NAND进行读写操作的三大方式1. 使用dd命令2. 使用块设备的标准接口3. 使用ioctl产生系统调…

    深入解析Java并发编程与单例模式

    目录 一、调度(四) 1.随机调度大环境 二、锁(二) 1.位置 2.无锁阻塞 3.重入锁 4.连续锁 4.1措施 三、线程方法(二) 1.wait 2.notify 3.wait-notify指位后移 3.1可能时再检查 3.1.1join(二) 3.1.1.1可能时再检查死亡 四、单例模式 1.实现 1.1private构造器 1…

    java通过redis简单实现分布式锁

    目录 一、简介 二、代码实现 1、maven添加依赖 2、核心逻辑代码 3、使用方式 三、总结 一、简介 我们知道在Java中可以通过关键字synchronized来防止并发引起的问题,而分布式中就需要考虑分布式锁了,今天来讲一个比较简单的实现,通过re…

    网络编程--TCP/UDP Socket套接字

    网络编程 程序员主要操作应用层和传输层来实现网络编程,也就是自己写一个程序,让这个程序可以使用网络来通信,这个程序属于应用层,实现通讯就需要获取到传输层提供的服务 这就需要使用传输层提供的api UDP: 无连接,不可…

    claude-code订阅方案

    Claude Code 订阅方案对比 编写日期:2025 年 08 月 20 日 🏷️ 专业版 Pro ($20/月,$200/年) 主要特性 可用模型:Claude Sonnet 4(Claude Opus 4成本太高,谨慎选择)适用场景:适合轻度…

    146. LRU缓存

    题目: 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类: LRUCache(int capacity) 以 正整数 作为容量 capacity 初始化 LRU 缓存 int get(int key) 如果关键字 key 存在于缓存中,则返回关键字的值&#x…

    第二十节:3D文本渲染 - 字体几何体生成与特效

    第二十节:3D文本渲染 - 字体几何体生成与特效 TextGeometry深度解析与高级文字效果实现1. 核心概念解析 1.1 3D文字渲染技术对比技术原理优点缺点TextGeometry将字体轮廓转换为3D网格真实3D效果,支持材质性能开销大,内存占用高Canvas纹理将文…

    zzz‘sJava知识点概括总结

    类型转化 字符串&#xff1a;c语言&#xff1a;char Java&#xff1a;string 表达式值的类型由最高类型决定&#xff1a; 取值范围&#xff1a;byte<short<int<long<float<double&#xff08;且运算时byte和short都是转化为int类型进行计算防止数据溢出&…

    SONiC 之 Testbed(2)Ansible

    Ansible 是一款由 Red Hat 主导开发的 开源自动化工具&#xff0c;专注于 配置管理、应用部署、任务编排和IT自动化。它基于 无代理&#xff08;Agentless&#xff09;架构&#xff0c;通过 SSH&#xff08;默认&#xff09;或 WinRM 协议与目标设备通信&#xff0c;无需在被控…

    瑞芯微RK3568与君正X2600e平台Linux系统CS创世SD NAND应用全解析与驱动架构详解

    前言 今天就瑞芯微平台和北京君正平台下的linux系统中关于CS创世 SD NAND的使用做一些经验的分享&#xff0c;如有不正&#xff0c;请批评指正&#xff1b; 采用的开发板是RK3568和x2600e&#xff0c;ubuntu版本是20.04&#xff0c;交叉编译工具链是aarch64-linux-gnu-和mips…

    深入解析 Flink Function

    RichFunctionFunction只是个标记接口public interface Function extends java.io.Serializable {}RichFunction 的核心语义是为用户定义的函数&#xff08;UDF&#xff09;提供生命周期管理和运行时上下文访问的能力。任何一个普通的 Flink Function 接口&#xff08;例如 MapF…

    JMeter —— 压力测试

    目录 常用的性能指标 一、吞吐量类指标 二、响应时间类指标 三、资源利用率指标 JMeter 一、JMeter 简介 二.下载安装JMeter&#xff1a; 三.如何使用JMeter&#xff1a; 压力测试考察当前软硬件环境下系统所能承受的最大负荷并帮助找出系统瓶颈所在。压测都是为了系统…

    Transformer在哪⾥做了权重共享?

    1、什么是权值共享权重共享是指在模型的不同层之间复⽤相同的参数。这可以减少模型的总体参数数量&#xff0c;并使得模型在训练时更容易学习。2、在Transformer中的应用常见的做法是共享词嵌入层&#xff08;embedding layer&#xff09;和输出层&#xff08;output layer&…

    将 agents 连接到 Elasticsearch 使用模型上下文协议 - docker

    我们在之前的文章 “将 agents 连接到 Elasticsearch 使用模型上下文协议” 及 “使用 MCP 将代理连接到 Elasticsearch 并对索引进行查询” 详述了如何使用 Elasticsearch MCP server 来和我们的 Elasticsearch 进行对话。细心的开发者可能已经注意到我们的 Elasticsearch MCP…

    Shell 编程基础与实践要点梳理

    目录 前言 一、认识 Shell 1.1 Shell 的定义与作用 1.2 Shell 解释器 二、Shell 脚本入门 2.1 编写 Shell 脚本 2.2 赋予执行权限与执行脚本 三、Shell 变量 3.1 变量定义与规则 3.2 变量使用与操作 3.3 变量类型 四、Shell 字符串 4.1 字符串定义方式 4.2 字符串…

    Python自动化测试完整教程:pytest + selenium实战

    目录 前言环境搭建pytest基础教程selenium基础教程pytest selenium实战项目页面对象模式(POM)测试报告生成持续集成配置最佳实践和进阶技巧总结 前言 自动化测试是现代软件开发中不可或缺的一环。Python作为一门简洁优雅的编程语言&#xff0c;配合pytest测试框架和seleniu…

    APM 系列(一):Skywalking 与 Easyearch 集成

    概述 SkyWalking 是一个开源的可观测性平台&#xff0c;用于收集、分析、聚合和可视化服务和云原生基础设施的数据。SkyWalking 提供了一种简单的方法&#xff0c;即使在云之间也能保持对分布式系统的清晰视图。它是一个现代的 APM&#xff0c;专门为云原生、基于容器的分布式…