大家好,我是工藤学编程 🦉 | 一个正在努力学习的小博主,期待你的关注 |
---|---|
实战代码系列最新文章😉 | C++实现图书管理系统(Qt C++ GUI界面版) |
SpringBoot实战系列🐷 | 【SpringBoot实战系列】Sharding-Jdbc实现分库分表到分布式ID生成器Snowflake自定义wrokId实战 |
环境搭建大集合 | 环境搭建大集合(持续更新) |
前情摘要:
1、数据库性能优化
本文章目录
- 一、分库分表:突破数据库性能瓶颈的原因
- 一、数据库连接数瓶颈问题
- 二、单表海量数据查询性能问题
- 三、单台数据库并发访问压力问题
- 二、分库分表带来的六大核心问题及技术挑战
- 一、跨节点数据库Join与多维度查询难题
- 二、分布式事务一致性挑战
- 三、SQL排序、翻页与函数计算的跨库困境
- 四、全局主键冲突与生成策略难题
- 五、容量规划与二次扩容的复杂性
- 六、分库分表中间件选型困境
一、分库分表:突破数据库性能瓶颈的原因
一、数据库连接数瓶颈问题
在数据库与应用程序交互的过程中,每个客户端请求都需要建立一个数据库连接。当系统访问量激增,或者数据库本身设置的最大连接数过小,就会触发 “too many connections” 错误。一旦连接数达到上限,后续的请求无法建立连接,系统响应速度会大幅下降,严重时甚至导致服务崩溃。
以 MySQL 数据库为例:
- 默认设置:MySQL 默认的最大连接数为 100,这个数值在一般小型项目中或许够用,但在高并发的互联网应用场景下,远远不能满足需求。
- 调整限制:虽然 MySQL 理论上允许的最大连接数可达 16384,但实际设置时不能盲目追求高值。因为每个连接都会占用内存等系统资源,过多的连接反而会加重服务器负担,影响数据库性能。
通过分库分表,将数据分散到多个数据库实例中,每个实例承担的连接请求相应减少,从而有效缓解连接数瓶颈问题。例如,原本 1000 个请求集中在一个数据库实例,分库后可能每个实例只处理 200 个请求,降低了单个实例的连接压力。
二、单表海量数据查询性能问题
随着业务的不断推进,数据库中部分核心表的数据量会快速增长。当单表数据量达到百万甚至千万级别时,即使是简单的查询操作,执行效率也会变得极低。这是因为全表扫描操作会消耗大量磁盘 I/O 和 CPU 资源,使得查询响应时间显著变长,影响用户体验。
通过分表,数据分散存储,查询操作的扫描范围大幅缩小,查询性能得到显著提升。
三、单台数据库并发访问压力问题
在高并发场景下,单台数据库服务器的处理能力是有限的。大量的读写请求集中在一台服务器上,会导致 CPU、内存、磁盘 I/O 等资源被迅速消耗,出现资源利用率过高的情况。最终,数据库响应延迟增加,甚至可能出现服务不可用的严重后果。
数据库分库则是将数据分散存储到多个数据库实例中,每个实例分担一部分业务请求。常见的分库方式是按照业务模块划分,比如:
- 将用户相关的数据存储在用户数据库;
- 订单数据存储在订单数据库;
- 商品数据存储在商品数据库。
通过这种方式,每个数据库实例的并发访问量降低,系统整体的并发处理能力得到极大提升,能够更好地应对高并发请求。
二、分库分表带来的六大核心问题及技术挑战
分库分表在解决数据库性能瓶颈的同时,也引入了一系列复杂的技术问题。以下是实践中常见的六大挑战及场景解析:
一、跨节点数据库Join与多维度查询难题
核心矛盾:数据分片后,关联查询与多维度查询的复杂度呈指数级上升。
- 传统场景对比:
分库前:通过单库SQL Join轻松实现多表关联(如SELECT * FROM orders JOIN users ON orders.uid=users.id
)。
分库后:若orders
按user_id
分片,users
按dept_id
分片,则跨库Join需手动拆分SQL,甚至通过应用层聚合结果。 - 多维度查询痛点:
- 案例:订单表以
user_id
为分片键,用户查询个人订单时效率高,但商家查询店铺订单(需按shop_id
筛选)时,数据可能分散在多个库中,需遍历所有分片节点后聚合结果,性能损耗严重。
- 案例:订单表以
二、分布式事务一致性挑战
问题本质:跨库操作打破ACID特性,需引入分布式事务解决方案。
- 典型场景:
电商场景中,用户下单时需同时扣减库存(库存库)和记录订单(订单库),若两库分片不同,传统本地事务失效。 - 技术难点:
- 强一致性方案(如2PC)性能开销大,弱一致性方案(如最终一致性)需处理异常补偿逻辑。
三、SQL排序、翻页与函数计算的跨库困境
具体问题表现:
- Order By排序:
若排序字段非分片键(如按create_time
排序),需从所有分片查询数据,各节点本地排序后再在应用层合并结果,消耗大量内存与CPU。 - Limit翻页:
当页码较大时(如LIMIT 10000,10
),各分片需返回前10010条数据,应用层合并后再取后10条,产生“深度分页”性能问题。 - 函数计算:
跨库聚合函数(如COUNT(*)
、SUM(amount)
)需先在各分片计算局部结果,再汇总全局值,增加网络传输开销。
四、全局主键冲突与生成策略难题
传统自增ID失效场景:
- 分库前:单库自增ID可保证唯一性(如
AUTO_INCREMENT
)。 - 分库后:若多个库均使用自增ID,会导致不同库中出现相同ID(如库1和库2的订单表均生成ID=1001)。
解决方案挑战: - 雪花算法(Snowflake)需保证时钟同步,分布式ID生成器(如UUID)存在无序性与存储冗余问题。
五、容量规划与二次扩容的复杂性
业务增长带来的动态挑战:
- 初次分库时若分片数量设计不足(如按10万数据/库规划),当数据量突破1000万时需重新分片(如扩容至100库)。
- 二次扩容需解决数据迁移问题:
- 全量迁移:停机迁移数据,但影响服务可用性。
- 增量迁移:需处理迁移期间的增量数据同步,避免数据不一致。
六、分库分表中间件选型困境
主流技术对比与选型难点:
中间件类型 | 代表产品 | 优势 | 短板 |
---|---|---|---|
客户端代理 | Sharding-JDBC | 无额外组件,与应用同进程部署 | 需修改应用代码,运维成本高 |
服务端代理 | MyCAT | 应用无感知,支持多数据库协议 | 单点性能瓶颈,版本迭代缓慢 |
云原生方案 | OceanBase | 自动分片与扩容,高可用性 | 学习成本高,适用于大型企业 |
后续将针对每个问题展开具体解决方案,欢迎关注技术连载!