概述

文本处理和查询处理系统将自然语言查询转换为与 RAGFlow 的文档存储后端配合使用的优化搜索表达式。该系统支持中英文文本处理,具有专门的标记化、术语加权和查询增强技术。

在这里插入图片描述

核心组件

FulltextQueryer 类

FulltextQueryer 类是查询处理和文本分析的主要接口。它协调标记化、术语加权和查询构造。

元件目的关键方法
FulltextQueryer主查询处理控制器question()、paragraph()、hybrid_similarity()
RagTokenizer文本标记化和分段tokenize()、fine_grained_tokenize()
Dealer术语加权和预处理权重()、 预代币()、拆分()

系统使用预定义的查询字段进行初始化,这些字段在搜索期间接收不同的提升权重:

query_fields = ["title_tks^10",      # Title tokens (highest boost)"title_sm_tks^5",    # Title small tokens  "important_kwd^30",  # Important keywords (highest boost)"important_tks^20",  # Important tokens"question_tks^20",   # Question tokens"content_ltks^2",    # Content large tokens"content_sm_ltks"    # Content small tokens (base weight)
]

代币化系统

RagTokenizer 使用基于 trie 的方法进行中文文本分割,使用 NLTK 进行英文处理:

在这里插入图片描述

术语权重和评分

Dealer 类使用 IDF 分数和语言特征实现复杂的术语加权:

加权因子公式目的
频率 IDFlog10(10 + (N - s + 0.5) / (s + 0.5))惩罚常用术语
文档频率 IDF与文档计数类似的公式上下文感知权重
NER 权重命名实体类型乘数提升重要实体
POS 重量基于词性的评分语法重要性

最终权重结合了以下因素: (0.3 * freq_idf + 0.7 * df_idf) * ner_weight * pos_weight

查询处理管道

问题处理

question() 方法将用户查询转换为与 Elasticsearch 兼容的查询表达式:

在这里插入图片描述

文本预处理函数

该系统包括几个文本预处理实用程序:

功能目的实现
subSpecialChar()转义 Elasticsearch 特殊字符re.sub(r"([:{}/[]-*"()
isChinese()检测中文文本优势基于比率的性格分析
rmWWW()删除疑问词和停用词基于正则表达式的多种语言过滤
add_space_between_eng_zh()在英文和中文之间添加空格基于正则表达式的文本规范化

相似性计算

混合相似性评分

hybrid_similarity() 方法将向量相似性与基于标记的相似性相结合:
在这里插入图片描述
公式为: vector_sim * 0.7 + token_sim * 0.3

代币相似度算法

代币相似性使用加权术语匹配:

# Simplified version of the similarity calculation
def similarity(self, qtwt, dtwt):s = 1e-9  # Small constant to avoid division by zerofor k, v in qtwt.items():if k in dtwt:s += v  # Add query term weight if present in documentq = 1e-9  # Query normalization factor  for k, v in qtwt.items():q += v  # Sum all query term weightsreturn s/q  # Normalized similarity score

段落处理

paragraph() 方法通过从文本内容中提取和加权关键术语来生成基于内容的检索查询:

在这里插入图片描述
该方法构造具有动态最小匹配要求的查询:min(3, len(keywords) // 10)

与文档存储集成

查询处理系统生成与 RAGFlow 的文档存储层集成的 MatchTextExpr 对象:

参数目的示例值
query_fields要使用权重搜索的字段[“title_tks^10”, “content_ltks^2”]
query_stringElasticsearch 查询表达式(term1^1.5 OR synonyms^0.2)
boost总体查询提升因子100
minimum_should_match最低匹配项0.6 或 3

配置和定制

系统使用多个可配置资源:

资源位置目的
字典rag/res/huqie.txt中文分割词典
NER 数据rag/res/ner.json命名实体识别映射
术语频率rag/res/term.freq文档频率统计
停用词内置套装要过滤的常用词

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/920566.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/920566.shtml
英文地址,请注明出处:http://en.pswp.cn/news/920566.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用机器学习优化Backtrader策略原理与实践

1. Backtrader框架概述 1.1 Backtrader简介 Backtrader是一个功能强大且灵活的Python库,专为量化交易策略的开发、测试和执行而设计。它提供了丰富的功能,包括数据获取、策略开发、回测、优化和绘图等。Backtrader的核心优势在于其模块化设计和高度可扩展…

CPTS-Pressed复现(XML-RPC)

该box主要是了解wordpress-XML-RPC 的使用 端口扫描只有80端口开启 可以使用wpscan进行扫描发现bak文件得到凭证,尝试登陆(这里是将原密码的2021修改为2022尝试登陆,该主机发布时间为2022年)发现有2FA,但是能够滥用 xm…

【机器学习深度学习】Embedding 与 RAG:让 AI 更“聪明”的秘密

目录 前言 一、RAG 的两大阶段 1. 知识库构建阶段 2. 查询检索与生成阶段 二、为什么 RAG 比单纯大模型更靠谱? 四、Embedding 在 RAG 中的作用 五、Embedding 的优势 六、Embedding 的挑战 七、RAG 优势与挑战对比 八、应用场景举例 总结 前言 在大模型…

python 转偶数

目录 python变量转偶数 box转偶数 python变量转偶数 x1 int(x1) // 2 * 2 y1 int(y1) // 2 * 2 x2 int(x2) // 2 * 2 y2 int(y2) // 2 * 2 box转偶数 def save_mp4(output_path,box_list,img_list,clip_start,clip_end):writer imageio.get_writer(output_path,fps30,c…

Linux - 中文显示乱码问题解决方法(编码查看及转换)- 学习/实践

1.应用场景 主要用于Linux中文显示乱码问题解决(编码查看及转换) 2.学习/操作 1.文档阅读 Linux中文显示乱码问题解决方法(编码查看及转换) - 整合侠 - 博客园 截图: 2.整理输出 TBD 后续补充 ... 3.问题/补充 TBD 后续补充 ...…

网络_协议

关键词: OSI是Open System Interconnect的缩写,意为开放式系统互联。 RTT : Round-Trip time 往返时间 RTO:Retransmission Timeout超时重传时间 MSL : OSI 七层模型和 TCP/IP 四层模型 OSI七层模型和TCP/IP五层模型&#…

vscode有的结构体不能补全,有的可以补全问题的解决.

定义了一个结构体,发现不能自动补全变量名称.而另外一个结构体却可以正常补全.经过研究发现是,新定义的结构体变量类型uint32_t,vscode认为其是错误类型导致的.暂时改为int型,后发现问题消失.可以正常补全了.由于工程使用cubeide生成,uint32_t定义在软件安装目录,并没有和项目文…

JavaScript 数组核心操作实战:最值获取与排序实现(从基础到优化)

在JavaScript开发中,数组的“最值获取”和“排序”是高频需求。本文将基于你的原始代码,系统解析数组最值获取、升序/降序排序的实现逻辑,通过“问题分析→代码优化→原理讲解”的流程,帮助你掌握更灵活、高效的数组操作方法&…

driver.js实现前端页面引导

1.安装 npm install driver.js2.实现代码示例 <template><div class"home-container"><!-- 页面内容 --><LeftPanel id"guide-left-panel" /><button id"guide-file-upload">文件上传</button><button i…

技术速递|使用 AI 应用模板扩展创建一个 .NET AI 应用与自定义数据进行对话

在本快速入门中&#xff0c;你将学习如何使用 .NET AI 应用模板创建一个 .NET AI 应用&#xff0c;与自定义数据进行对话。该模板旨在简化 .NET 构建 AI 应用的上手体验&#xff0c;帮助你处理常见的设置任务和配置。 先决条件 .NET 9.0 SDK 以下任一 IDE&#xff08;可选&am…

使用Cloudflare的AI Gateway代理Google AI Studio

1、说明详见&#xff1a;详见&#xff1a;https://developers.cloudflare.com/ai-gateway/usage/providers/google-ai-studio在"Google AI Studio"创建"API key" 在"Cloudflare"创建"AI Gateway"、获取"Account ID"2、在“G…

Scrapy 框架实战:构建高效的快看漫画分布式爬虫

一、Scrapy框架概述 Scrapy是一个为了爬取网站数据&#xff0c;提取结构性数据而编写的应用框架&#xff0c;它提供了强大的数据提取能力、灵活的扩展机制以及高效的异步处理性能。其核心架构包括&#xff1a; Engine&#xff1a;控制所有组件之间的数据流&#xff0c;当某个…

数据结构(C语言篇):(六)单链表算法题(下)

目录 前言 一、链表的回文结构 二、相交链表 三、环形链表​编辑 四、环形链表II 总结 前言 本篇博客将继续介绍单链表相关的算法题&#xff0c;包括了链表的回文结构、相交链表、环形链表等。现在就让我们正式开始吧&#xff01; 一、链表的回文结构 题目链接&#xff1a…

【AI自动化】VSCode+Playwright+codegen+nodejs自动化脚本生成

VSCodePlaywrightnodejs&#xff0c;能完美实现UI自动化全流程脚本自动生成和回放&#xff0c;生成的脚本方便维护&#xff0c;回放执行快速&#xff1b; 概述 Playwright 是由Microsoft开发的一个开源的跨浏览器自动化测试库&#xff0c;它支持Chromium、WebKit和Firefox浏览…

基于能量方法的纳维-斯托克斯方程高阶范数有界性理论推导-陈墨仙

写在最前面&#xff0c;圈外人&#xff0c;没有背书没有教育邮箱&#xff0c;发不了预印本&#xff0c;我先发csdn。刚才首发没复制完&#xff0c;抱歉&#xff0c;现在编辑下。基于能量方法的纳维-斯托克斯方程高阶范数有界性理论推导作者 陈墨仙邮件 2488888241qq.com摘要纳维…

Labview邪修01:贪吃蛇

从博主很小的时候就在掌机上玩过这个贪吃蛇的小游戏&#xff0c;突然有一天心血来潮的想Labview是不是也可以编这个小游戏&#xff0c;回忆一下童年&#xff01;然后就又了下面的这个程序&#xff0c;执行结果如下图所示。 基本功能&#xff1a; 1&#xff09;点击开始按钮&am…

将自己的jar包发布到maven中央仓库(2025-08-29)

将自己的jar包发布到maven中央仓库(2025-08-29) 一、注册账号 https://central.sonatype.com/ 二、新建命名空间 这里的命名空间需要填写github的用户名因为我的用户名是daimao0,所以命名空间填io.github.daimao0 这里要求你建一个名为ubuxfc5q7r的公共项目&#xff0c;先创…

Spring CompositeCacheManager融合缓存

这是一个非常实用但容易被忽视的组件,它在特定的缓存场景下能提供极大的灵活性。 1. 核心概念:它是什么? ​​CompositeCacheManager​​ 是 Spring Framework 缓存抽象(spring-context模块)的一部分。它的核心作用正如其名——​​组合(Composite)​​。 它本身并不…

无懈可击的 TCP AIMD

不特指 TCP AIMD&#xff0c;而泛指控制范畴的所有 Additive Increase / Multiplicative Decrease 算法&#xff0c;继 难以超越的 TCP AIMD 再叙。 “你永远不能仅凭 BBR 的吞吐更高就说 BBR 比 CUBIC 更好” 这句话怎么总是没人看&#xff0c;这句话是这一系列文章的前提论点…