pingmian/2025/9/14 23:24:09/文章来源:https://blog.csdn.net/Running_boy_/article/details/151649488

在ES中，已经有Term Index，那还会走倒排索引吗

你这个问题问得很到位 👍。我们分清楚 Term Index 和 倒排索引 在 Elasticsearch (ES) 里的关系：

1. 倒排索引（Inverted Index）

是 Lucene/ES 检索的核心。
文档 → 词项 → Posting List（包含出现在哪些 doc、位置等）。
当你搜索一个 term 时，最终还是要从倒排索引里取出匹配文档 ID。

2. Term Dictionary / Term Index

Term Dictionary 就是所有 term 的字典表，按字典序组织。
如果直接存，可能会很大（几百万甚至上亿个 term）。
为了加速查找，Lucene 会给 Term Dictionary 建立 Term Index（类似于一个 FST 前缀树）。
- 作用是：快速定位某个 term 在 Term Dictionary 中的位置。
- 比如你要查 “apple”，Term Index 能快速告诉你 “apple” 在字典大概哪一段，而不用顺序扫描。

3. 查询流程（简化版）

用户查询 "apple"。
先查 Term Index：快速定位 “apple” 在 Term Dictionary 的范围。
从 Term Dictionary 找到准确的 term。
拿到这个 term 的倒排表（Posting List）。
根据 Posting List 找出对应的文档 ID。

4. 回答你的问题

👉 有 Term Index，不代表不走倒排索引。

Term Index 只是用来 加速找到 term 的入口，本质上还是要回到 倒排索引（Posting List） 去取文档。
所以两者关系是：
- Term Index → 帮你定位 term
- 倒排索引 → 真正返回文档

✅ 一句话总结：
ES 中，Term Index 是 倒排索引的入口加速结构，最终查文档时一定会走倒排索引。

就是说Term Index不会完全匹配到，只会返回有共同前缀的第一个Term Dictionary？之后在利用倒排索引进行二分查找？

👌 你理解的方向对，但我帮你捋清楚细节：

1. Term Index 的本质

Term Index 在 Lucene 里一般是 FST（Finite State Transducer）有穷状态机。
它不是存所有 term，而是存 稀疏采样的前缀 → Term Dictionary 的跳转位置。
所以 Term Index 的作用是：快速定位到 Term Dictionary 中的某个位置，而不是直接给出完整匹配。

2. 查询过程（举例）

假设 Term Dictionary 里有这些 term：

apple
applet
application
banana
band

当你查 "application"：

Term Index 先根据前缀找到 "app" 开头的一个锚点（比如指向 "apple" 这一段）。
然后在 Term Dictionary 里做精确比较/二分查找，直到找到 "application"。
一旦找到 term，就能取出它对应的 Posting List（倒排表）。

3. 回答你的问题

✔ 你说的“只会返回有共同前缀的第一个 Term Dictionary”是对的，但有个补充：

Term Index 会定位到 最接近的一个锚点。
然后 Lucene 在 Term Dictionary 中继续查找（可能是二分查找，也可能是顺序扫描，取决于实现）。
找到确切的 term 后，才会去读 倒排索引（Posting List）。

4. 类比理解

Term Index：像书的目录，告诉你某个字母开头的词在哪一页。
Term Dictionary：具体的词表，按字典序排好。
倒排索引：每个词对应的“在哪些文章里出现”。

所以 Term Index 永远只是入口，最终要靠 Term Dictionary 精确匹配，拿到 Posting List 才能查文档。

我想的是，按照你给的例子中appli这个前缀似乎是独一无二的，总能找到，就算是applet，apple他们也是有区分度的。那么，唯一的可能就是，Term Index不会无限细分下去，比如到app，就不再往下分了，这样只能搜索到apple

你抓住关键点了 👍，正是这样。

Lucene 里的 Term Index（通常是 FST），不会把所有 term 的路径都完整存进去，否则就和 Term Dictionary 本身没区别了，浪费空间。

1. Term Index 不会无限细分

它是 稀疏索引，只存一部分前缀作为“跳点”。
比如词表里有：
```
apple
applet
application
```
Term Index 可能只存到 “app”，指向这段 term。
并不会继续区分到 "appl" / "appli" 这种更细的层级。

2. 查找过程

你查 "application" → 先用 FST 找 "app" 的锚点。
跳到 Term Dictionary 对应区间（可能是 "apple" 开头的地方）。
然后在这片字典里做二分 / 顺序查找，直到找到 "application"。

3. 为什么这样设计？

节省内存：如果所有前缀都存，就和存一整个 Trie 差不多，太大。
查找效率：稀疏索引 + Term Dictionary 二分查找，综合性能更高。
平衡：只要能快速定位到“足够小的一段”就够了，没必要直接精确定位到某个 term。

✅ 所以你理解对了：

Term Index 不会无限细分，它只保证能定位到某个“最近的前缀区间”；
真正的精确匹配还是要靠 Term Dictionary（而不是 Term Index 本身）。

那一般会细分都几个字符

好问题 👍，你已经完全抓到 Lucene Term Index 的实现细节了。

1. Term Index（FST）的细分程度

在 Lucene/ES 里，这个“细分到几个字符”不是写死的，而是通过 采样策略决定的。

Lucene 在构建索引时，不会给每个 term 都建一个索引节点，而是按间隔采样。
这个采样的粒度由参数控制，主要是：

`termIndexInterval`

含义：在 Term Dictionary 中，每隔多少个 term，往 FST 里加一个跳点。
默认值（Lucene 9.x）：32。
也就是说：Term Index 大约每隔 32 个 term 才存一个 entry。

2. 影响

如果 term 很多，比如 320,000 个 term，Term Index 里大概只有 10,000 个跳点。
这样就不会无限细分到 appl、appli 这种级别，而是存一些“代表性前缀”。
查找时，先通过 FST 定位到最接近的跳点，然后再在 Term Dictionary 里做二分/顺序查找。

3. 举个例子

假设 Term Dictionary 里有这些词（简化）：

apple
applet
application
apply
banana
band
...

如果 termIndexInterval = 2，那么 Term Index 可能只存：
- "apple"
- "application"
- "banana"
你要查 "applet" 的时候，FST 会定位到 "apple" 这一段，然后在 Term Dictionary 里再顺序/二分找到 "applet"。

4. 回答你的问题

👉 一般不会细分到具体几个字符，而是按 term 间隔采样。

默认：32 个 term 采样一次。
所以“细分程度”取决于字典里 term 的分布，而不是固定的字符长度。

✅ 一句话总结：
Term Index 不是按字符数来细分，而是 每隔一定数量的 term（默认 32）建立一个跳点。最终的精确匹配仍然要依赖 Term Dictionary。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/96527.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/96527.shtml
英文地址，请注明出处：http://en.pswp.cn/pingmian/96527.shtml

如若内容造成侵权/违法违规/事实不符，请联系英文站点网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

pre-commit run --all-files 报错：http.client.RemoteDisconnected

pre-commit run --all-files 报错：http.client.RemoteDisconnected

报错完整信息初步原因是这样报错是 Python 的 http.client.RemoteDisconnected，意思是在用 urllib 请求远程 URL 时，远程服务器直接断开了连接，没有返回任何响应。在你的堆栈里，它出现在 pre-commit 尝试安装 Golang 环境的时候…

阅读更多...

【C++】STL·List

【C++】STL·List

1. list的介绍及使用 1.1list介绍 List文档介绍 1.2 list的使用 list中的接口比较多，此处类似，只需要掌握如何正确的使用，然后再去深入研究背后的原理，已达到可扩展的能力。以下为list中一些常见的重要接口。 1.2.1 list的构造…

阅读更多...

图论2 图的数据结构表示

图论2 图的数据结构表示

目录一图的数据结构表示 1 邻接矩阵（Adjacency Matrix） 2 邻接表（Adjacency List） 3 边列表（Edge List） 4 十字链表（Orthogonal List / Cross-linked List, 十字链表） 5 邻接…

阅读更多...

在Excel中删除大量间隔空白行

在Excel中删除大量间隔空白行

在 Excel 中删除大量间隔空白行，可使用定位空值功能来快速实现。以下是具体方法：首先，选中包含空白行的数据区域。可以通过点击数据区域的左上角单元格，然后按住鼠标左键拖动到右下角最后一个单元格来实现。接着，按下快…

阅读更多...

【C 学习】10-循环结构

【C 学习】10-循环结构

“知道做不到就是不知道”一、条件循环1. while只要条件为真（true），就会重复执行循环体内的代码。while (条件) {// 循环体（要重复执行的代码） }//示例 int i 1; while (i < 5) {printf("%d\n", i);i; …

阅读更多...

音视频的下一站：协议编排、低时延工程与国标移动化接入的系统实践

音视频的下一站：协议编排、低时延工程与国标移动化接入的系统实践

一、引言：音视频的基础设施化过去十年，音视频的两条主线清晰可辨： 娱乐驱动：直播、电商、短视频把“实时观看与互动”变成高频日常。行业扩展：教育、会议、安防、政务逐步把“可用、可管、可控”引入产业系统。 …

阅读更多...

SAM-Med3D：面向三维医疗体数据的通用分割模型（文献精读）

SAM-Med3D：面向三维医疗体数据的通用分割模型（文献精读）

1) 深入剖析：核心方法与图示（Figure）逐一对应 1.1 单点三维提示的任务设定（Figure 1）论文首先将3D交互式分割的提示形式从“2D逐片（每片1点，共N点）”切换为“体素级单点（1个3D点）”。Figure 1直观对比了 SAM（2D）/SAM-Med2D 与 SAM-Med3D（1点/体）的差异：前两者…

阅读更多...

【Spring】原理解析：Spring Boot 自动配置进阶探索与优化策略

【Spring】原理解析：Spring Boot 自动配置进阶探索与优化策略

一、引言在上一篇文章中，我们对 Spring Boot 自动配置的基本原理和核心机制进行了详细的分析。本文将进一步深入探索 Spring Boot 自动配置的高级特性，包括如何进行自定义扩展、优化自动配置的性能，以及在实际项目中的应用优化策略。同时&…

阅读更多...

OpenCV：图像直方图

OpenCV：图像直方图

目录一、什么是图像直方图？ 关键概念：BINS（区间） 二、直方图的核心作用三、OpenCV 计算直方图：calcHist 函数详解 1. 函数语法与参数解析 2. 基础实战：计算灰度图直方图代码实现结果分析 3. 进…

阅读更多...

docke笔记下篇

docke笔记下篇

本地镜像发布到阿里云本地镜像发布到阿里云流程镜像的生成方法基于当前容器创建一个新的镜像，新功能增强 docker commit [OPTIONS] 容器ID [REPOSITORY[:TAG]] OPTIONS说明： OPTIONS说明： -a :提交的镜像作者； -m :提交时的说…

阅读更多...

《大数据之路1》笔记2：数据模型

《大数据之路1》笔记2：数据模型

一数据建模综述 1.1 为什么要数据建模背景： 随着DT时代的来临，数据爆发式增长，如何对数据有序，有结构地分类组织额存储是关键定义： 数据模型时数据组织和存储的方法，强调从业务、数据存取、使用角度合理存…

阅读更多...

“量子能量泵”：一种基于并联电池与电容阵的动态直接升压架构

“量子能量泵”：一种基于并联电池与电容阵的动态直接升压架构

“量子能量泵”：一种基于并联电池与电容阵的动态直接升压架构摘要：本文揭示了一种革命性的高效电源解决方案，旨在彻底解决低电压、大功率应用中的升压效率瓶颈与电池一致性难题。该方案摒弃传统磁性升压拓扑，创新性地采用并联电池…

阅读更多...

DeepSeek实战--自定义工具

DeepSeek实战--自定义工具

1. 背景当前已经有很多AI基础平台（比如：扣子、Dify），用户可以快速搭建Agent，那怎样将已有的接口能力给大模型调用呢 ？ 今天我们来探索一个，非常高效、快捷的方案：将http接口做成Dif…

阅读更多...

“移动零”思路与题解

“移动零”思路与题解

给定一个数组 nums，编写一个函数将所有 0 移动到数组的末尾，同时保持非零元素的相对顺序。请注意 ，必须在不复制数组的情况下原地对数组进行操作。思路讲解：举例如下：实现代码是：class Solution { public:v…

阅读更多...

关于行内元素，行内块元素和块级元素

关于行内元素，行内块元素和块级元素

1、什么是行内元素，什么是行内块元素，什么是块级元素行内元素的特点：不独占一行，相邻元素会在同一行显示，直到一行排不下才换行。宽度和高度由内容本身决定，无法通过width，height手动设置&#…

阅读更多...

⽹络请求Axios的概念和作用

⽹络请求Axios的概念和作用

Axios 是一个基于 Promise 的轻量级、高性能 HTTP 客户端库，主要用于在浏览器和 Node.js 环境中发起 HTTP 请求（如 GET、POST、PUT、DELETE 等）。它通过简洁的 API 和强大的功能，简化了前端与后端之间的数据交互过…

阅读更多...

在AgentScope中实现结构化输出

在AgentScope中实现结构化输出

在AgentScope中实现结构化输出概述在AgentScope框架中，结构化输出功能允许开发者定义明确的输出模式，确保AI模型的响应符合预期的格式和约束。本教程将介绍如何使用AgentScope的structured_model参数来实现结构化输出。结构化输出的优势数据一致性&a…

阅读更多...

Linux 磁盘I/O高占用进程排查指南：从定位到分析的完整流程

Linux 磁盘I/O高占用进程排查指南：从定位到分析的完整流程

在Linux服务器运维工作中，磁盘I/O瓶颈是导致系统性能下降的常见原因之一。当服务器出现响应缓慢、应用卡顿等问题时，及时定位并解决高I/O占用进程就显得尤为重要。本文将从核心思路出发，通过“确认问题-定位磁盘-锁定进程-深入分析”四个步骤…

阅读更多...

解决React中通过外部引入的css/scss/less文件更改antDesign中Modal组件内部的样式不生效问题

解决React中通过外部引入的css/scss/less文件更改antDesign中Modal组件内部的样式不生效问题

不生效原因Ant Design 的 Modal 默认通过 ReactDOM.createPortal 挂在 <body> 下，与你的组件树平级，所以写在 .module.css / scoped less 里的选择器根本匹配不到它，就算写全局样式，也可能因为权重不足或异步挂载时机而“看…

阅读更多...

day41 51单片机最小系统、GPIO控制、时序逻辑器件（74HC138/595）与LED点阵驱动原理

day41 51单片机最小系统、GPIO控制、时序逻辑器件（74HC138/595）与LED点阵驱动原理

day41 51单片机最小系统、GPIO控制、时序逻辑器件（74HC138/595）与LED点阵驱动原理一、嵌入式系统基础概念 1.1 嵌入式系统定义先设计硬件，基于硬件设计软件实现一个具体的功能 —— 专用的计算机系统硬件/软件可剪裁：根据功能需求…

阅读更多...

最新文章