前言

在向量搜索中,召回率是一个关键指标,它衡量搜索结果的相关性。然而,提高召回率往往会牺牲其他指标,如索引大小或查询延迟。为了平衡这些权衡,混合搜索技术应运而生。本文将介绍如何在 PostgreSQL 中结合 pgvector 实现混合搜索,并探讨其对搜索结果的影响。

前提条件

必须使用PostgreSQL中的 pgvector 插件和 tsearch2 函数。请先检查一下,你所使用的PostgreSQL 是否支持。

什么是混合搜索?

混合搜索是将向量相似性搜索与其他搜索方法(如全文搜索)相结合的一种技术。它通过多种搜索方法对同一数据进行搜索,对每种方法的结果进行排序,然后合并所有结果以确定最终排名。混合搜索的目标是提高搜索结果的质量,即提高召回率。

在混合搜索中,互惠排序融合(RRF)是一种常用的评分方法。RRF 通过加权评分系统,根据排名对结果进行评分。公式如下:

1.0 / (result_search_1_rank + rrf_k) +
1.0 / (result_search_2_rank + rrf_k)

其中,rrf_k 是一个常数,用于控制权重。较小的 rrf_k 值会赋予排名较高的项目更大的权重。

PostgreSQL 中的全文搜索

PostgreSQL 提供了多种全文搜索方法,如 tsearch2 和 pg_trgm,以及扩展如 pg_bigm 和 PGroonga。在本文中,我们将使用 tsearch2 函数,并结合 GIN 索引和 ts_rank_cd 结果排序方法。

示例:在 PostgreSQL 中构建混合搜索

数据准备

我们使用 Python 的 faker 库生成随机文本数据,并使用 multi-qa-MiniLM-L6-cos-v1 句子转换器模型计算向量嵌入。以下是 Python 代码:

from faker import Faker
import psycopg
from pgvector.psycopg import register_vector
from sentence_transformers import SentenceTransformerfake = Faker()
sentences = [fake.sentence(nb_words=50) for i in range(0, 50_000)]model = SentenceTransformer('multi-qa-MiniLM-L6-cos-v1')
embeddings = model.encode(sentences)conn = psycopg.connect(dbname="<YOUR DATABASE>", autocommit=True)
cur = conn.cursor()with cur.copy("COPY products (description, embedding) FROM STDIN WITH (FORMAT BINARY)") as copy:copy.set_types(["text", "vector"])for content, embedding in zip(sentences, embeddings):copy.write_row((content, embedding))cur.close()
conn.close()

数据库设置

在 PostgreSQL 中,我们需要创建表和索引:

-- 创建扩展
CREATE EXTENSION vector;-- 创建表
CREATE TABLE products (id int GENERATED BY DEFAULT AS IDENTITY PRIMARY KEY,description text NOT NULL,embedding vector(384) NOT NULL
);-- 创建 RRF 评分函数
CREATE OR REPLACE FUNCTION rrf_score(rank int, rrf_k int DEFAULT 50)
RETURNS numeric
LANGUAGE SQL
IMMUTABLE PARALLEL SAFE
AS $$SELECT COALESCE(1.0 / ($1 + $2), 0.0);
$$;-- 创建全文搜索索引
CREATE INDEX ON productsUSING GIN (to_tsvector('english', description));-- 创建向量搜索索引
CREATE INDEX ON productsUSING hnsw(embedding vector_cosine_ops) WITH (ef_construction=256);

搜索实现

单独的向量相似性搜索
SELECT id, description, rank() OVER (ORDER BY $1 <=> embedding) AS rank
FROM products
ORDER BY $1 <=> embedding
LIMIT 10;
单独的全文搜索
SELECTid,description,rank() OVER (ORDER BY ts_rank_cd(to_tsvector(description), plainto_tsquery('travel computer')) DESC) AS rank
FROM products
WHEREplainto_tsquery('english', 'travel computer') @@ to_tsvector('english', description)
ORDER BY rank
LIMIT 10;
混合搜索
SELECTsearches.id,searches.description,sum(rrf_score(searches.rank)) AS score
FROM ((SELECTid,description,rank() OVER (ORDER BY $1 <=> embedding) AS rankFROM productsORDER BY $1 <=> embeddingLIMIT 40)UNION ALL(SELECTid,description,rank() OVER (ORDER BY ts_rank_cd(to_tsvector(description), plainto_tsquery('travel computer')) DESC) AS rankFROM productsWHEREplainto_tsquery('english', 'travel computer') @@ to_tsvector('english', description)ORDER BY rankLIMIT 40)
) searches
GROUP BY searches.id, searches.description
ORDER BY score DESC
LIMIT 10;

性能分析

通过 EXPLAIN ANALYZE,我们可以看到 PostgreSQL 在混合搜索中同时使用了向量索引和全文搜索索引。以下是执行计划的输出:

Limit  (cost=789.66..789.69 rows=10 width=365) (actual time=8.516..8.519 rows=10 loops=1)->  Sort  (cost=789.66..789.86 rows=80 width=365) (actual time=8.515..8.518 rows=10 loops=1)Sort Key: (sum(COALESCE((1.0 / (("*SELECT* 1".rank + 50))::numeric), 0.0))) DESCSort Method: top-N heapsort  Memory: 32kB->  GroupAggregate  (cost=785.53..787.93 rows=80 width=365) (actual time=8.435..8.495 rows=79 loops=1)Group Key: "*SELECT* 1".id, "*SELECT* 1".description->  Sort  (cost=785.53..785.73 rows=80 width=341) (actual time=8.430..8.436 rows=80 loops=1)Sort Key: "*SELECT* 1".id, "*SELECT* 1".descriptionSort Method: quicksort  Memory: 53kB->  Append  (cost=84.60..783.00 rows=80 width=341) (actual time=0.877..8.414 rows=80 loops=1)->  Subquery Scan on "*SELECT* 1"  (cost=84.60..125.52 rows=40 width=341) (actual time=0.877..0.949 rows=40 loops=1)->  Limit  (cost=84.60..125.12 rows=40 width=349) (actual time=0.876..0.945 rows=40 loops=1)->  WindowAgg  (cost=84.60..50736.60 rows=50000 width=349) (actual time=0.876..0.942 rows=40 loops=1)->  Index Scan using products_embeddings_hnsw_idx on products  (cost=84.60..49861.60 rows=50000 width=341) (actual time=0.872..0.919 rows=40 loops=1)Order By: (embedding <=> '<redacted>'::vector)->  Subquery Scan on "*SELECT* 2"  (cost=656.58..657.08 rows=40 width=341) (actual time=7.448..7.458 rows=40 loops=1)->  Limit  (cost=656.58..656.68 rows=40 width=345) (actual time=7.447..7.453 rows=40 loops=1)->  Sort  (cost=656.58..656.89 rows=124 width=345) (actual time=7.447..7.449 rows=40 loops=1)Sort Key: (rank() OVER (?))Sort Method: top-N heapsort  Memory: 44kB->  WindowAgg  (cost=588.18..652.66 rows=124 width=345) (actual time=7.357..7.419 rows=139 loops=1)->  Sort  (cost=588.18..588.49 rows=124 width=337) (actual time=7.355..7.363 rows=139 loops=1)Sort Key: (ts_rank_cd(to_tsvector(products_1.description), plainto_tsquery('travel computer'::text))) DESCSort Method: quicksort  Memory: 79kB->  Bitmap Heap Scan on products products_1  (cost=30.38..583.87 rows=124 width=337) (actual time=0.271..7.323 rows=139 loops=1)Recheck Cond: ('''travel'' & ''comput'''::tsquery @@ to_tsvector('english'::regconfig, description))Heap Blocks: exact=138->  Bitmap Index Scan on products_description_gin_idx  (cost=0.00..30.35 rows=124 width=0) (actual time=0.186..0.186 rows=139 loops=1)Index Cond: (to_tsvector('english'::regconfig, description) @@ '''travel'' & ''comput'''::tsquery)
Planning Time: 0.193 ms
Execution Time: 8.553 ms

从执行计划可以看出,PostgreSQL 在混合搜索中同时使用了向量索引和全文搜索索引,查询效率较高。

为什么会使用这样的方案,rerank模型不香吗?

我们自己使用spring ai 框架搭建的大模型应用平台的底层推理引擎是 ollama,因此我们重度依赖ollama 所提供的推理能力,然而ollama 并不支持rerank模型的服务,为了解决召回重排的问题,在不进一步增大部署实施难度的情况下,采用了混合检索的方案进行简化。

其次通过架构的讨论,在算力不强的环境下,能够尽量压榨PostgreSQL 的能力,提高召回,也是压缩成本的一个考虑。

spring ai 官方也将提供类似方案进行重排

已经在 spring ai 1.1.x 的pull request 中有大神实现了类似的方案。
https://github.com/spring-projects/spring-ai/pull/1097

后续在我们自己平台上的进一步使用计划

本文展示了如何在 PostgreSQL 中结合 pgvector 实现混合搜索,并通过示例验证了其可行性。然而,这只是一个起点。未来的工作包括:

  1. 评估混合搜索的性能:在更大的数据集上测试混合搜索的召回率、查询延迟和每秒查询次数(QPS),并与单独的向量搜索进行对比。
  2. 优化参数:调整 rrf_k 等参数,以找到最佳的混合搜索策略。
  3. 探索其他全文搜索算法:分析 PostgreSQL 中不同的全文搜索算法(如 pg_trgm、pg_bigm 等)对混合搜索结果的影响。

混合搜索为提升搜索结果的相关性提供了一种有效的途径。通过结合向量相似性搜索和全文搜索的优势,我们可以在不显著增加查询延迟的情况下,提高搜索结果的召回率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/85356.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/85356.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/85356.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Uniapp 跨平台开发框架全面解析:一次开发,多端运行

在移动互联网时代&#xff0c;开发者面临着一个重要挑战&#xff1a;如何高效地开发出能在多个平台&#xff08;iOS、Android、Web、小程序等&#xff09;上运行的应用&#xff1f;传统的原生开发方式需要为每个平台单独编写代码&#xff0c;导致开发周期长、维护成本高。而 Un…

ios如何把H5网页变成主屏幕webapp应用

一、将 H5 页面添加到主屏幕的步骤 打开 Safari 浏览器 在 iPhone 上打开 Safari 浏览器&#xff0c;访问目标网页&#xff08;H5 页面&#xff09;。 点击分享按钮 在 Safari 浏览器底部点击 “分享” 图标&#xff08;箭头向上的按钮&#xff09;。 添加到主屏幕 在分享菜单…

Node.js 项目启动命令大全 (形象版)

文章目录 Node.js 项目启动命令大全 &#x1f31f;✨&#xff08;形象版&#xff09;一、&#x1f50d; 如何查看项目启动命令&#xff08;魔法书目录&#xff09;package.json scripts 参数详解开发相关脚本测试相关脚本构建相关脚本代码质量相关脚本最佳实践 二、&#x1f68…

爱普特APT32F1104C8T6单片机 高抗干扰+硬件加密双保障

爱普特APT32F1104C8T6单片机深度解析 1. 产品定位 APT32F1104C8T6 是爱普特半导体&#xff08;APT&#xff09;推出的 32位高性能经济型单片机&#xff0c;基于 ARM Cortex-M0内核&#xff0c;采用 LQFP48封装&#xff0c;主打 高性价比、低功耗、强抗干扰&#xff0c;是替代进…

使用uni-app ios 打包流程

配置几个步骤即可 1、打包ios需要BundleID ID 2、证书私钥密码 3、信任文件证书文件 4、私钥证书 5、打包 6、获取打包后的ipa文件 7、通过爱思助手安装到iso手机上 8、完成 1、下载&#xff1a;App Uploader去获取我们想要的证书私钥等文件 2、下载完成解压后的文件如下打…

仿muduo库实现并发服务器

1.实现目标 仿muduo库One Thread One Loop式主从Reactor模型实现高并发服务器&#xff1a; 通过实现高并发服务器的组件&#xff0c;可以快速实现一个高并发服务器的搭建&#xff0c;并且&#xff0c;通过组内不同应用层协议的支持&#xff0c;可以快速完成高性能服务器的搭建…

迭代器模式:集合遍历的统一之道

引言&#xff1a;集合遍历的演进之路 在软件开发中&#xff0c;集合遍历是我们每天都要面对的基础操作。从最初的数组索引遍历到现代的流式处理&#xff0c;我们经历了&#xff1a; #mermaid-svg-KwTr9k8JgbwRTDhU {font-family:"trebuchet ms",verdana,arial,sans-…

Spring Security OAuth2 组件

我们来系统地讲解一下 Spring Security OAuth2 这个强大的组件。我会从概念、作用、核心组件&#xff0c;以及实际应用场景来为你剖析。 1. 什么是 Spring Security OAuth2&#xff1f; 简单来说&#xff0c;Spring Security OAuth2 是 Spring Security 框架的一个模块&#…

Redis的持久化功能

Redis的持久化功能能够将内存中的数据保存到磁盘&#xff0c;从而在重启后恢复数据。下面为你详细介绍Redis的两种主要持久化方式及其配置方法。 RDB&#xff08;Redis Database&#xff09;持久化 RDB持久化是通过生成某个时间点的数据集快照来实现的。它具有高性能的特点&a…

Chrome 将成为下一个 IE6

最近在技术圈刷到一个帖子&#xff0c;说&#xff1a;“Chrome 就快变成新的 IE6 了。” 乍一看有点危言耸听&#xff0c;但你一细品&#xff0c;发现还真挺像回事。 想当年&#xff1a;IE6 是怎么垮的&#xff1f; IE6 当年多风光&#xff1f;全球市场份额一度超过 90%&#…

Redis 配置文件详解redis.conf 从入门到实战

一、redis.conf 是什么&#xff1f; Redis 的配置文件&#xff08;默认命名为 redis.conf&#xff0c;Redis 8.0 之后改为 redis-full.conf&#xff09;控制着服务运行的各项参数。该文件采用以下结构&#xff1a; 指令名 参数1 参数2 ... 参数N例如&#xff1a; replicaof …

autoware docker的安装

前言 官方的安装说明&#xff1a; 官方的安装说明 安装前&#xff0c;请确认安装的硬件&#xff1a; CPU with 8 cores16GB RAM[Optional] NVIDIA GPU (4GB RAM) 满足需求 1. 安装软件依赖 这一步主要是安装三个软件&#xff1a; DockerNVIDIA Container Toolkit (pref…

AWS 解决方案深度剖析:Amazon QLDB — 构建可信赖、不可变的数据审计基石

导言&#xff1a;数据可信的挑战 在现代应用开发中&#xff0c;尤其是在金融、供应链、身份认证、政府事务、医疗记录管理等领域&#xff0c;数据完整性和历史追溯性至关重要。我们常常面临以下挑战&#xff1a; 审计困难&#xff1a; 如何证明数据从诞生至今未被篡改&#xf…

Leetcode-​1358. 包含所有三种字符的子字符串数目​

Problem: 1358. 包含所有三种字符的子字符串数目 思路 滑动窗口 解题过程 滑动窗口&#xff1a;使用左右指针 l 和 r 维护一个窗口&#xff0c;窗口内字符的频次由 cnt 记录。 右指针扩展&#xff1a;右指针 r 不断右移&#xff0c;将字符加入窗口并更新频率。 左指针收缩&a…

iTunes 无法备份 iPhone:10 种解决方法

Apple 设备是移动设备市场上最先进的产品之一&#xff0c;但有些人遇到过 iTunes 因出现错误而无法备份 iPhone 的情况。iTunes 拒绝备份 iPhone 时&#xff0c;可能会令人非常沮丧。不过&#xff0c;幸运的是&#xff0c;我们有 10 种有效的方法可以解决这个问题。您可以按照以…

Unity 接入抖音小游戏一

目录 一、搭建小游戏环境 二、接入抖音SDK 1.初始化 2.登录 3.分享 4.添加到桌面 5.侧边栏功能 6. 接入流量主 三、完整代码 下一篇传送门 Unity 接入抖音小游戏二 -CSDN博客 一、搭建小游戏环境 我这边因为没有下载其他版本的Unity所以就先用2022.3.57f1了 大家还是下载…

Node.js 项目启动命令全面指南:从入门到精通(术语版)

文章目录 Node.js 项目启动命令全面指南&#xff1a;从入门到精通一、核心启动命令深度解析1. 基础命令结构与执行机制2. 参数传递机制详解 二、常用命令分类详解1. 运行环境命令对比2. 质量保障命令详解3. 构建部署全流程 三、高级配置实战技巧1. 环境变量管理进阶2. 命令组合…

创意风格行业PPT模版分享

极简主题PPT模版&#xff0c;设计类PPT模版&#xff0c;快乐童年成长PPT模版&#xff0c;教育机构通用PPT模版&#xff0c;创意风格行业PPT模版 创意风格行业PPT模版分享&#xff1a;https://pan.quark.cn/s/3bac52e09479

Java + Spring Boot + MyBatis 枚举变量传递给XML映射文件做判断

枚举定义 ReagentStatus.java package com.weiyu.utils.enums;import lombok.Getter;/*** 试剂状态枚举*/ Getter public enum ReagentStatus {// 常规REGULAR,// 少库存LESS_INVENTORY,// 零库存ZERO_INVENTORY,// 将过期WILL_EXPIRE,// 已过期EXPIRED,// 已注销LOGGED,// 全…

华为云Flexus+DeepSeek征文 | 华为云CCE容器高可用部署Dify高可用版实测:从0到1的高可靠应用实践

引言 随着大语言模型&#xff08;LLM&#xff09;技术的爆发&#xff0c;如何快速构建具备高可用、弹性扩展能力的AI应用开发平台&#xff0c;成为企业数字化转型的关键命题。华为云依托其云原生基础设施&#xff0c;推出CCE容器高可用版Dify部署方案&#xff0c;通过“一键部…