背景

MySQL在2015年中发布的5.7.8版本中首次引入了JSON数据类型。自此,它成了一种逃离严格列定义的方式,可以存储各种形状和大小的JSON文档,例如审计日志、配置信息、第三方数据包、用户自定义字段等。

虽然MySQL提供了读写JSON数据的函数,但你很快会发现一个显著的缺失:直接给JSON列建立索引的能力。

在其他数据库中,直接索引JSON列的最佳方法通常是使用一种叫做广义倒排索引(Generalized Inverted Index,简称GIN)的类型。然而,由于MySQL没有提供GIN索引,我们无法直接对整个存储的JSON文档建立索引。不过不必担心!MySQL确实为我们提供了一种间接索引存储在JSON文档中特定部分的方式。

根据所使用的MySQL版本,有两个选项可以给JSON建立索引:

  • 如果使用MySQL 5.7,需要创建一个中间生成列(Generated Column)
  • 从MySQL 8.0.13开始,可以直接创建函数索引(Functional Index)

接下来,我们以一个示例表为例,该表用于记录应用程序中的各种操作日志:

CREATE TABLE `activity_log` (`id` int(11) NOT NULL AUTO_INCREMENT,`properties` json NOT NULL,`created_at` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,PRIMARY KEY (`id`)
)

在该表的properties字段中插入如下结构的JSON文档:

{"uuid": "e7af5df8-f477-4b9b-b074-ad72fe17f502","request": {"email": "little.bobby@tables.com","firstName": "Little","formType": "vehicle-inquiry","lastName": "Bobby","message": "Hello, can you tell me what the specs are for this vehicle?","postcode": "75016","townCity": "Dallas"}
}

在本例中,我们将尝试索引request对象内的email键,这可以让用户快速找到由特定人员提交的表单。

方法一:通过“生成列”索引JSON

**生成列(Generated Column)**可以视为计算列、派生列或公式列。它的值是某个表达式的运算结果,而不是直接的数据输入。表达式可以包含常量值、内置函数或对其他列的引用。表达式的结果必须是定量的(Scalar)且具有确定性(Deterministic)。

由于我们试图索引properties列中的request.email字段,生成列将使用JSON的解引用(Unquoting Extraction)运算符来提取该值。

首先,运行一个SELECT语句来验证表达式是否正确:

mysql> SELECT properties->>"$.request.email" FROM activity_log;
+--------------------------------+
| properties->>"$.request.email" |
+--------------------------------+
| little.bobby@tables.com        |
+--------------------------------+

符号->>是解引用运算符,它等价于如下的写法:

mysql> SELECT JSON_UNQUOTE(JSON_EXTRACT(properties, "$.request.email"))->   FROM activity_log;
+-----------------------------------------------------------+
| JSON_UNQUOTE(JSON_EXTRACT(properties, "$.request.email")) |
+-----------------------------------------------------------+
| little.bobby@tables.com                                   |
+-----------------------------------------------------------+

上述两种写法,具体使用哪种方式可完全取决于个人偏好。

确认表达式的有效性和准确性后,我们使用它创建一个生成列

ALTER TABLE activity_log ADD COLUMN email VARCHAR(255)GENERATED ALWAYS as (properties->>"$.request.email");

这条ALTER语句的前半部分非常熟悉,添加了一个名为email的列,并将其定义为VARCHAR(255)类型。而后半部分声明该列为生成列,并定义它始终等于表达式properties->>"$.request.email"的结果。

我们可以像其他列一样查询它,确认生成列已被成功添加:

mysql> SELECT id, email FROM activity_log;
+----+-------------------------+
| id | email                   |
+----+-------------------------+
|  1 | little.bobby@tables.com |
+----+-------------------------+

从结果可以看到,MySQL将动态维护这个列。如果我们更新了JSON数据,生成列的值也会随之改变。

接下来,我们像其他普通列一样为这生成列添加索引:

ALTER TABLE activity_log ADD INDEX email (email) USING BTREE;

现在已经成功为JSON中request.email键建立了索引。可以通过EXPLAIN验证索引是否会被用于查询:

mysql> EXPLAIN SELECT * FROM activity_log WHERE email = 'little.bobby@tables.com';

在这里插入图片描述

结果显示MySQL计划使用email索引来满足该查询。

索引生成列与优化器(Optimizer)

MySQL的优化器是一个强大但神秘的组件。当我们给MySQL下达命令时,它理解的是我们想要什么,而不是我们明确指定如何实现。通常,MySQL会稍微改写我们的查询,这通常是一件好事。

对于生成列上的索引,优化器能“透过”不同的访问模式以确保使用索引。例如,在以下查询中,我们通过JSON提取运算符访问数据,而不是直接使用生成的email列:

mysql> EXPLAIN SELECT * FROM activity_log->   WHERE properties->>"$.request.email" = 'little.bobby@tables.com';

结果可以看到优化器仍然使用了email索引。哪怕使用长写的表达式,也可以看到优化器仍然“穿透”表达式并利用了索引,甚至可以通过SHOW WARNINGS查看优化器改写后的查询:

mysql> SHOW WARNINGS;

显示结果表明查询被改写为直接参考了索引的列。

方法二:函数索引(Functional Index)

从MySQL 8.0.13开始,可以跳过创建生成列的中间步骤,直接创建表达式索引(Function Index)。例如:

ALTER TABLE activity_logADD INDEX email ((properties->>"$.request.email")) USING BTREE;

然而,当你尝试运行上述语句时会遇到错误:

ERROR: Cannot create a functional index on an expression that returns a BLOB or TEXT. Please consider using CAST.

这是因为MySQL自动推断JSON解引用操作返回LONGTEXT类型,而无法对其直接建立索引。可通过CAST将值转化为MySQL可索引的数据类型:

ALTER TABLE activity_logADD INDEX email ((CAST(properties->>"$.request.email" AS CHAR(255)))) USING BTREE;

此外还需要解决字符集不匹配的问题,需要显式设置排序规则为utf8mb4_bin

ALTER TABLE activity_logADD INDEX email ((CAST(properties->>"$.request.email" AS CHAR(255)) COLLATE utf8mb4_bin)) USING BTREE;

运行EXPLAIN后可以确认函数索引已成功被使用。

总结

尽管MySQL无法直接对JSON列建立索引,但通过生成列和函数索引的方式间接索引特定字段能够满足绝大多数场景。同时这种方式不仅适用于JSON,还适用于其它复杂或难以索引的模式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/96595.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/96595.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/96595.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【学习日记】

1.上午看了会面经,八股,很多看不懂1.5排查本地mysql服务启动问题2.刷了两道题翻转二叉树的Dfs和bfs递归方法,看了几分钟看懂了,一开始刷题,没有这种感觉,可能思维上升了3.下午做了会ppt4.看了ssm的一个gith…

本地大模型部署指南-Ollama与HuggingFace对比

在本地部署大模型时,用 Ollama 和 Hugging Face (HF) 确实有很大区别,涉及系统、硬件、训练、推理方式,以及能否查看模型源代码。下面我分几个维度说明: 系统和安装 Ollama 定位是「开箱即用」的本地大模型运行环境。 自带运行时&…

河北周边有哪些比较靠谱的智算中心?

河北省通过算力普惠、绿色能源、数据开放、金融支持四大支柱政策,推动智算中心高质量发展。河北及周边地区的智算中心已形成高可靠性、先进技术和战略协同的布局。那么,河北周边有哪些比较靠谱的智算中心?一、河北周边智算中心盘点‍1、尚航怀…

电动汽车充电标准之 — 国标 GB/T 18487《电动汽车传导充电系统》 简介

GB/T 18487 的全称是 《电动汽车传导充电系统》 ,它是中国电动汽车充电领域最基础、最核心的国家标准之一。该标准规定了电动汽车传导充电系统的通用要求、通信协议、安全要求等,是整个中国充电基础设施建设的基石。 与您之前了解的IEC 61851类似&#x…

温湿度传感器如何守护工业制造?

在工业制造、农业养殖、仓储物流乃至文物保护等领域,环境温湿度的精确监测是保障品质与安全的关键。温湿度传感器作为无声的守护者,如何通过稳定可靠的数据采集,为现代工业生产的精细化与智能化管理提供坚实基础?本文将深入探讨其…

破壁·融合·共赢:杭州大成慧谷基金与涉海科技混改项目公司正式启航!

2025 年 7 月 15 日,一家融合国企基金实力与民企创新活力的混合所有制项目公司正式诞生——由杭州大成慧谷股权投资基金管理有限公司与山东涉海海洋生物科技有限公司共同出资设立的武创慧聚创芯科学技术(上海)有限公司,当日完成法律合规手续。此前,上海武创大智高新技术集团副总…

洛谷 P1271 【深基9.例1】选举学生会-普及-

P1271 【深基9.例1】选举学生会 题目描述 学校正在选举学生会成员,有 nnn(1≤n≤9991 \le n\le 9991≤n≤999)名候选人,每名候选人编号分别从 111 到 nnn,现在收集到了 mmm(1≤m≤20000001 \le m \le 20000…

【AI】AI 评测入门(二):Prompt 迭代实战从“能跑通”到“能落地”

“Prompt 不是写出来的,是测出来的。” ——这是我迭代 5 个版本后,最深的体悟。 上一篇《AI 评测入门(一):先搞懂你的数据集)》,我们讲了标签体系、自测集、评测集、Langfuse 数据结构化——那是 AI 评测的…

【好靶场】SQLMap靶场攻防绕过 (一)

0x00 前言 最近遇到很多在做基础靶场的小伙伴们都在SQLMap一把索,那么所幸搞一个SQLMap绕过的靶场。 我们是好靶场,一个立志于让所有学习安全的同学用上好靶场的团队。 https://github.com/haobachang-1/haobachangBlog/ https://github.com/haobach…

DeepSeek辅助编写的利用quick_xml把xml转为csv的rust程序

提示词请用rust quickxml库实现读取xml的row和c标签信息,并输出到csv格式,要求是:数值型c,输出标签的内容,字符串型c(t “inlineStr”),输出的内容,row的r属性表是行号,c的r属性是字…

logback-spring.xml文件说明

项目里刚好用到&#xff0c;用豆包生成以下说明&#xff0c;此处作为记录。以下是一个 logback-spring.xml 配置文件示例&#xff0c;结合了 Spring Boot 特性&#xff0c;支持环境区分、日志滚动和不同级别日志输出&#xff0c;并包含详细注释&#xff1a;<?xml version&q…

专题:2025社交媒体营销与电商融合趋势报告:抖音、小红书、短剧、直播全拆解|附210+份报告PDF、数据仪表盘汇总下载

原文链接&#xff1a;https://tecdat.cn/?p43853 原文出处&#xff1a;拓端抖音号拓端tecdat 3年前&#xff0c;电商还停留在“货架摆货、用户搜关键词下单”的传统模式&#xff0c;社交媒体只是品牌“打知名度”的辅助工具&#xff1b;如今&#xff0c;用户刷抖音直播能直接下…

大模型API密钥生成规则分析

大模型API密钥生成规则分析 一、核心生成原则与安全基础 1.1 密码学安全随机数生成 大模型API密钥的核心安全基础在于高熵值随机数生成,需满足以下技术标准: 熵值要求:至少128位(16字节),推荐256位(32字节),通过密码学安全伪随机数生成器(CSPRNG)实现 生成算法:…

太阳光度计在光伏电站的用途

太阳光度计在光伏电站中具有多重关键用途&#xff0c;能够为电站的规划、运行、维护及能效提升提供科学依据。以下是其具体应用场景及价值分析&#xff1a;1. 太阳能资源评估与电站选址优化核心功能&#xff1a;太阳光度计通过测量直接太阳辐射&#xff08;DNI&#xff09;、散…

ArkTS(方舟 TypeScript)全面介绍:鸿蒙生态的核心编程语言

一、引言 随着鸿蒙(HarmonyOS)的快速演进,开发者生态成为支撑其发展的关键因素。无论是手机、平板、智能穿戴,还是车机、IoT 设备,鸿蒙都希望通过“一次开发,多端部署”的理念,让开发者能够更高效地构建应用。 为了实现这一目标,华为推出了 ArkTS(方舟 TypeScript)…

领码方案|Linux 下 PLT → PDF 转换服务超级完整版:异步、权限、进度(一气呵成)

本教程给出可直接落地的 Linux 环境下 PLT→PDF 转换微服务&#xff0c;全链路涵盖&#xff1a;同步/异步模式、JWTRBAC项目域权限、任务状态与进度、PDF 水印与审计、可观测性与弹性伸缩&#xff1b;技术栈为 Spring Boot gpcl6&#xff08;GhostPCL&#xff09; Redis S3/O…

基于51单片机的LCD12864万年历时钟

目录 具体实现功能 设计介绍 资料内容 全部内容 资料获取 具体实现功能 具体功能&#xff1a; &#xff08;1&#xff09;LCD12864实时显示当前时间&#xff08;年月日时分秒星期&#xff09;及温度值&#xff1b; &#xff08;2&#xff09;四个按键可调整当前时间值&…

【C++】string类--常见接口及其模拟实现

目录 1. 遍历 1.1. 下标operator[ ] 1.2. c_str 1.3. 迭代器 1.4. 范围for 2. 增 2.1. push_back 2.2. 重载&#xff08;char ch&#xff09; 2.3. appand 2.4. 重载&#xff08;char* ch&#xff09; 2.5. insert&#xff08;任意位置插入&#xff09; 2.5.1. 任意…

SCADA 云化部署核心:WebSocket 协议实现毫秒级远程控制

在浙江某智慧水厂的中控室里&#xff0c;曾发生过一次惊险的远程控制失误&#xff1a;运维人员通过传统 SCADA 系统&#xff08;工业控制系统的 “大脑”&#xff09;远程调节水泵转速&#xff0c;指令发出后&#xff0c;屏幕上却迟迟没有反馈 —— 等水泵转速最终变化时&#…

大数据电商流量分析项目实战:Day1-2 补充 软件安装和Zookeeper

✨博客主页&#xff1a; https://blog.csdn.net/m0_63815035?typeblog &#x1f497;《博客内容》&#xff1a;大数据、Java、测试开发、Python、Android、Go、Node、Android前端小程序等相关领域知识 &#x1f4e2;博客专栏&#xff1a; https://blog.csdn.net/m0_63815035/…