在最近使用 Elasticsearch 的过程中,我遇到了一个 字段值过长导致索引失败 的问题。经过排查和多次尝试,最终通过设置字段 "index": false 方式解决。本文将从问题现象、排查过程、问题分析、解决方案和建议等方面,详细记录这次踩坑经验。
如下图所示:

1.原因解释:


你在保存文档时,fieldOvyryf 字段的值(可能是一个超长字符串,比如大 JSON、大文本块等)经过 UTF-8 编码后,字节数达到了 61506

但是 Elasticsearch 对单个字段的最大字节长度限制是 32766,超过就会报错。

 

问题现象:

项目中使用 Spring Boot + Elasticsearch(ES 7.x)进行数据索引,当向某个索引插入一条数据时,报出了如下错误:

org.elasticsearch.index.mapper.MapperParsingException: failed to parse field [fieldOvyryf] of type [text]

进一步查看日志详情,发现错误信息中提示: 


Document contains at least one immense term in field="fieldOvyryf" (whose UTF8 encoding is longer than the max length 32766)

也就是说,fieldOvyryf 字段的内容超长,已经超过了 ES 默认允许的最大长度(32,766 字节) 

我使用kibana查看索引发现一开始这个字段的类型

2.问题排查过程

在 Elasticsearch 中,字段长度受限于底层 Lucene 索引存储结构,对于 text 类型的字段,一般最大允许的单个 term 是 32766 字节。这个限制并不针对字符串本身的字符数,而是它在 UTF-8 编码下的字节长度。

一、确认异常字段

在请求报错时,明确了是 fieldOvyryf 字段导致的问题。

二、检查字段映射

我查询了该字段的索引 mapping 映射配置:
"fieldOvyryf": {
"type": "text"
}
默认情况下,text 类型会被 ES 拿去做全文检索,因此会经过分词器处理,并写入反向索引。这就会对字段长度做出严格限制

三、分析数据来源

fieldOvyryf 实际上是某个业务模块里的备注或富文本字段,用户有可能粘贴大量内容甚至整个文档、表格 HTML 等,这种内容一旦超过 32766 字节就会报错。

 

3.最终解决方案

由于该字段我们并不需要对它做搜索功能,仅用于存储展示,因此决定禁用它的索引:

 

由于的我的索引是创建过的不能直接在基础上可以删除后重新添加,我是先查询来原有的字段,然后赋值下来 把旧的删掉 然后重新创建了一个新的。这是一个笨方法

4.总结与建议

内容
错误原因text 类型字段内容超出 Lucene 限制的 32766 字节
导致后果文档无法索引写入,抛出 MapperParsingException
关键字段"fieldOvyryf"
解决方法设置 "index": false 禁止该字段建索引
适用场景对于备注、大段文本、富文本字段,仅展示、不搜索的情况

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/90875.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/90875.shtml
英文地址,请注明出处:http://en.pswp.cn/web/90875.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用idea 将一个git分支的部分记录合并到git另一个分支

场景: 有多个版本分支,需要将其中一个分支的某一两次提交合并到指定分支上 eg: 将v1.0.0分支中指定提交记录 合并到 v1.0.1分支中 操作: 步骤一 idea切换项目分支到v1.0.1(需要合并到哪个分支就先站到哪个分支上) 步骤二 在ide…

基于深度学习的图像分类:使用ShuffleNet实现高效分类

前言 图像分类是计算机视觉领域中的一个基础任务,其目标是将输入的图像分配到预定义的类别中。近年来,深度学习技术,尤其是卷积神经网络(CNN),在图像分类任务中取得了显著的进展。ShuffleNet是一种轻量级的…

OpenGL里相机的运动控制

相机的核心构造一个是glm::lookAt函数,一个是glm::perspective函数,本文相机的一切运动都在于如何构建相应的参数传入上述两个函数里。glm::mat4 glm::lookAt(glm::vec3 const &eye,//相机所在位置glm::vec3 const &center,//要凝视的点glm::vec…

java设计模式 -【策略模式】

策略模式定义 策略模式(Strategy Pattern)是一种行为设计模式,允许在运行时选择算法的行为。它将算法封装成独立的类,使得它们可以相互替换,而不影响客户端代码。 核心组成 Context(上下文)&…

项目重新发布更新缓存问题,Nginx清除缓存更新网页

server {listen 80;server_name your.domain.com; # 替换为你的域名root /usr/share/nginx/html; # 替换为你的项目根目录# 规则1:HTML 文件 - 永不缓存# 这是最关键的一步,确保浏览器总是获取最新的入口文件。location /index.html {add_header Cache-…

系统架构师:系统安全与分析-思维导图

系统安全与分析的定义​​系统安全与分析是系统架构师在系统全生命周期中贯穿的核心职责,其本质是通过​​识别、评估、防控安全风险,并基于数据与威胁情报进行动态分析​​,构建从技术到管理的多层次防护体系,确保系统的保密性&a…

利用 Google Guava 的令牌桶限流实现数据处理限流控制

目录 一、令牌桶限流机制原理 二、场景设计与目标 三、核心实现代码(Java) 1. 完整代码实现 四、运行效果分析 五、应用建议 在高吞吐数据处理场景中,如何限制数据处理速率、保护系统资源、防止下游服务过载是系统设计中重要的环节。本文…

小黑课堂计算机二级 WPS Office题库安装包2.52_Win中文_计算机二级考试_安装教程

软件下载 【名称】:小黑课堂计算机二级 WPS Office题库安装包2.52 【大小】:584M 【语言】:简体中文 【安装环境】:Win10/Win11(其他系统不清楚) 【迅雷网盘下载链接】(务必手机注册&#…

CSS3知识补充

1.伪类和伪元素: 简单的伪类实例 :first-chlid :last-child :only-child :invalid 用户行为伪类 :hover——上面提到过,只会在用户将指针挪到元素上的时候才会激活,一般就是链接元素。:focus——只会在用户使用键盘控制,选…

Spring Retry 异常重试机制:从入门到生产实践

Spring Retry 异常重试机制&#xff1a;从入门到生产实践 适用版本&#xff1a;Spring Boot 3.x spring-retry 2.x 本文覆盖 注解声明式、RetryTemplate 编程式、监听器、最佳实践 与 避坑清单&#xff0c;可直接落地生产。 一、核心坐标 <!-- Spring Boot Starter 已经帮…

VTK交互——CallData

0. 概要 这段代码https://examples.vtk.org/site/Cxx/Interaction/CallData/是一个使用VTK(Visualization Toolkit)库的示例程序,主要演示了自定义事件、回调函数和定时器的使用。程序创建一个旋转球体场景,并通过定时器触发自定义事件来更新计数器。以下是详细解释: 1.…

OCR工具集下载与保姆级安装教程!!

软件下载 软件名称&#xff1a;OCR工具集1.1 软件语言&#xff1a;简体中文 软件大小&#xff1a;78.8M 系统要求&#xff1a;Windows7或更高&#xff0c; 32/64位操作系统 硬件要求&#xff1a;CPU2GHz &#xff0c;RAM4G或更高 盘丨下载&#xff1a;https://tool.nineya…

平时遇到的错误码及场景?404?400?502?都是什么场景下什么含义,该怎么做 ?

✅ 一、常见 HTTP 错误码及含义状态码含义简述类型400Bad Request&#xff1a;请求格式有误客户端错误401Unauthorized&#xff1a;未授权客户端错误403Forbidden&#xff1a;禁止访问客户端错误404Not Found&#xff1a;资源不存在客户端错误405Method Not Allowed&#xff1a…

基于Tornado的WebSocket实时聊天系统:从零到一构建与解析

引言 在当今互联网应用中&#xff0c;实时通信已成为不可或缺的一部分。无论是社交媒体、在线游戏还是协同办公&#xff0c;用户都期待即时、流畅的交互体验。传统的HTTP协议是无状态的、单向的请求-响应模式&#xff0c;客户端发起请求&#xff0c;服务器返回响应&#xff0c…

【语义分割】记录2:yolo系列

图像分割笔记1、源码下载2、数据获取3、环境配置4、模型训练5、模型推理6、模型部署6.1 yolov5_flask学习7、版本上传1、源码下载 git clone https://github.com/ultralytics/ultralytics.gitgit回到对应版本&#xff1a; 方式一&#xff1a;使用 git checkout&#xff08;临…

ubuntu22.04系统 算力4090服务器 病毒防护 查杀等 运维入门(三)clamAV工具离线查杀

以下有免费的4090云主机提供ubuntu22.04系统的其他入门实践操作 地址&#xff1a;星宇科技 | GPU服务器 高性能云主机 云服务器-登录 相关兑换码星宇社区---4090算力卡免费体验、共享开发社区-CSDN博客 兑换码要是过期了&#xff0c;可以私信我获取最新兑换码&#xff01;&a…

微信小程序文件下载与预览功能实现详解

在微信小程序开发中&#xff0c;文件处理是常见需求&#xff0c;尤其是涉及合同、文档等场景。本文将通过一个实际案例&#xff0c;详细讲解如何实现文件的下载、解压、列表展示及预览功能。 功能概述 该页面主要实现了以下核心功能&#xff1a; 列表展示可下载的文件信息支持 …

postgresql执行创建和删除时遇到的问题

删除数据库的时候出现的问题 有连接在占用 postgres=# DROP DATABASE "subgraph-dev"; ERROR: database "subgraph-dev" is being accessed by other users DETAIL: There is 1 other session using the database.强制断开在用的连接 -- 替换 subgraph…

linux 应用层直接操作GPIO的方法

了解&#xff01;你使用的是 Rockchip RK3588S 平台&#xff0c;需要操作 GPIO3_D5_d 这个引脚&#xff08;即 MCU_JTAG_TMS_M1/.../GPIO3_D5_d&#xff09;。以下是基于你提供的系统信息的具体操作步骤&#xff1a;&#x1f50d; 第一步&#xff1a;确认 GPIO 系统编号 在 RK3…

JavaScript核心概念全解析

目录 1. 作用域 (1) 局部作用域 (2) 全局作用域 2. 垃圾回收 (1) 引用计数法 (2) 标记清除法 3. 闭包 (1) 作用 (2) 风险 4. 变量提升 (1) var (2) let 和 const (3) const 5. 函数提升 (1) 函数声明 (2) 函数表达式 6. 函数参数 (1) 动态参数 (2) 剩余参数…