原sql,一个base表a,LEFT JOIN三个表抽数

SELECT 
ccu.*,
ctr.*,
om.*,
of.*
FROM
ods.a ccu
LEFT JOIN
ods.b ctr ON ccu.coupon_code = ctr.coupon_code AND ctr.is_deleted = 0
LEFT JOIN
ods.c om ON ctr.bill_code = om.order_id AND om.deleted = 0
LEFT JOIN
ods.d of ON om.order_id = of.order_id AND of.deleted = 0 and of.foe_type=1 and of.status=20
WHERE
ccu.created_date BETWEEN $start_time AND $end_time;

缺点致命伤:如果四个表数据量都比较大,需要大量的内存做left join匹配,就容易打爆内存,同时效率很低;

**优化一:**减少base表的取数据范围,将base表写成子查询,而不是将where语句写到最后,经验证性能可以提升40%左右(单表千万以上的数据量),但是由于b,c,d表数据量很大,LEFT JOIN依然会内存爆掉

SELECT ccutwo.*,ctr.*,om.*,of.*
FROM(SELECT ccu.* FROM ods.a ccu WHEREccu.created_date BETWEEN $start_time AND $end_time) AS ccutwoLEFT JOINods.coupon_trade_record ctr ON ccutwo.coupon_code = ctr.coupon_code AND ctr.is_deleted = 0LEFT JOINods.order_master om ON ctr.bill_code = om.order_id AND om.deleted = 0LEFT JOINods.order_foe of ON om.order_id = of.order_idAND of.deleted = 0AND of.foe_type = 1AND of.status = 20

**优化二:**通过where条件减少b,c,d表数据量,性能又提升一个level,基于create_date统一数据时间范围

SELECT ccutwo.*,ctr.*,om.*,of.*
FROM(SELECT ccu.* FROM ods.a ccu WHEREccu.created_date BETWEEN $start_time AND $end_time) AS ccutwoLEFT JOINods.coupon_trade_record ctr ON ccutwo.coupon_code = ctr.coupon_codeAND ctr.is_deleted = 0 and ctr.created_date BETWEEN $start_time AND $end_timeLEFT JOINods.order_master om ON ctr.bill_code = om.order_idAND om.deleted = 0 and om.created_date BETWEEN $start_time AND $end_timeLEFT JOINods.order_foe of ON om.order_id = of.order_idAND of.deleted = 0AND of.foe_type = 1AND of.status = 20AND  of.created_date BETWEEN $start_time AND $end_time

**优化三:**基于doris数据库表的特性,通过分区字段限制数据范围性能更高,trans_date为分区字段

SELECT ccutwo.*,ctr.*,om.*,of.*
FROM(SELECT ccu.* FROM ods.a ccu WHEREccu.trans_date = $trans_dateLEFT JOINods.coupon_trade_record ctr ON ccutwo.coupon_code = ctr.coupon_codeAND ctr.is_deleted = 0 and ctr.trans_date = $trans_dateLEFT JOINods.order_master om ON ctr.bill_code = om.order_idAND om.deleted = 0 and om.trans_date = $trans_dateLEFT JOINods.order_foe of ON om.order_id = of.order_idAND of.deleted = 0AND of.foe_type = 1AND of.status = 20AND  of.trans_date = $trans_date

**优化四:**按照sql开发规范,多表LEFT JOIN不能超过三个表,拆分两个sql执行,同时根据doris主键模型(该模型保证 Key 列的唯一性,插入或更新数据时,新数据会覆盖具有相同 Key 的旧数据,确保数据记录为最新。),新建主键模型表

老表带分区字段

CREATE TABLE `dwd_table` (--fields
) ENGINE=OLAP
UNIQUE KEY(`coupon_code`, `trans_date`)
COMMENT '领券生命周期dwd宽表'
PARTITION BY RANGE(`trans_date`)
(PARTITION p20250809 VALUES [('2025-08-09'), ('2025-08-10')),
PARTITION p20250810 VALUES [('2025-08-10'), ('2025-08-11')))
DISTRIBUTED BY HASH(`coupon_code`) BUCKETS 1
PROPERTIES (
"replication_allocation" = "tag.location.default: 3",
"min_load_replica_num" = "-1",
"is_being_synced" = "false",
"dynamic_partition.enable" = "true",
"dynamic_partition.time_unit" = "DAY",
"dynamic_partition.time_zone" = "Asia/Shanghai",
"dynamic_partition.start" = "-2147483648",
"dynamic_partition.end" = "32",
"dynamic_partition.prefix" = "p",
"dynamic_partition.replication_allocation" = "tag.location.default: 3",
"dynamic_partition.buckets" = "1",
"dynamic_partition.create_history_partition" = "true",
"dynamic_partition.history_partition_num" = "350",
"dynamic_partition.hot_partition_num" = "0",
"dynamic_partition.reserved_history_periods" = "NULL",
"dynamic_partition.storage_policy" = "",
"storage_medium" = "hdd",
"storage_format" = "V2",
"inverted_index_storage_format" = "V1",
"enable_unique_key_merge_on_write" = "true",
"light_schema_change" = "true",
"disable_auto_compaction" = "false",
"enable_single_replica_compaction" = "false",
"group_commit_interval_ms" = "10000",
"group_commit_data_bytes" = "134217728",
"enable_mow_light_delete" = "false"
);

新表,不带分区字段

CREATE TABLE `dwd_table_new` (--fields
) ENGINE=OLAP
UNIQUE KEY(`coupon_code`)
COMMENT '生命周期dwd宽表'
DISTRIBUTED BY HASH(`coupon_code`) BUCKETS 8
PROPERTIES (
"replication_allocation" = "tag.location.default: 3",
"min_load_replica_num" = "-1",
"is_being_synced" = "false",
"storage_medium" = "hdd",
"storage_format" = "V2",
"inverted_index_storage_format" = "V1",
"enable_unique_key_merge_on_write" = "true",
"light_schema_change" = "true",
"disable_auto_compaction" = "false",
"enable_single_replica_compaction" = "false",
"group_commit_interval_ms" = "10000",
"group_commit_data_bytes" = "134217728",
"enable_mow_light_delete" = "false"
);

写入时先写base(a)表,再写附表(bcd),如果UNIQUE KEY一样就会覆盖老数据,不会新插入一条

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/92455.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/92455.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/92455.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis 核心概念、命令详解与应用实践:从基础到分布式集成

目录 1. 认识 Redis 2. Redis 特性 2.1 操作内存 2.2 速度快 2.3 丰富的功能 2.4 简单稳定 2.5 客户端语言多 2.6 持久化 2.7 主从复制 2.8 高可用 和 分布式 2.9 单线程架构 2.9.1 引出单线程模型 2.9.2 单线程快的原因 2.10 Redis 和 MySQL 的特性对比 2.11 R…

【Day 18】Linux-DNS解析

目录 一、DNS概念 1、概念和作用 2、域名解析类型 3、 软件与服务 4、DNS核心概念 区域 记录 5、查询类型 6、分层结构 二、DNS操作 配置本机为DNS内网解析服务器 (1)修改主配置文件 (2)添加区域 正向解析区域: …

Python 中 OpenCV (cv2) 安装与使用介绍

Python 中 OpenCV (cv2) 安装与使用详细指南 OpenCV (Open Source Computer Vision Library) 是计算机视觉领域最流行的库之一。Python 通过 cv2 模块提供 OpenCV 的接口。 一、安装 OpenCV 方法 1:基础安装(推荐) # 安装核心包&#xff0…

微软WSUS替代方案

微软WSUS事件回顾2025年7月10日,微软最新确认Windows Server Update Services(WSUS)出现了问题,导致IT管理员无法正常同步和部署Windows更新。WSUS是允许管理员根据策略配置,将更新推送到特定计算机,并优化…

Minio 分布式集群安装配置

目录创建 mkdir -p /opt/minio/run && mkdir -p /etc/minio && mkdir -p /indata/disk_0/minio/datarun:启动脚本及二进制文件目录/etc/minio:配置文件目录data:数据存储目录下载 minio wget https://dl.min.io/server/minio…

Spring Boot + ShardingSphere 实现分库分表 + 读写分离实战

🚀 Spring Boot ShardingSphere 实现分库分表 读写分离(涵盖99%真实场景) 🏷️ 标签:ShardingSphere、分库分表、读写分离、MySQL 主从、Spring Boot 实战 分库分表 vs 读写分离 vs 主从配置与数据库高可用架构区别 …

将普通用户添加到 Docker 用户组

这样可以避免每次使用 Docker 命令时都需要 sudo。以下是具体步骤:1. 创建 Docker 用户组(如果尚未存在) 默认情况下,安装 Docker 时会自动创建 docker 用户组。可以通过以下命令检查: groupadd docker(如果…

Scrapy(一):轻松爬取图片网站内容​

目录 一、CrawlSpider 简介​ 二、实战案例:图片网站爬取​ 三、代码解析:核心组件详解​ 类定义: 2.核心属性:​ 3.爬取规则(Rules):​ 4.数据提取方法(parse_item)…

使用 systemd 的原生功能来实现 Redis 的自动监控和重启,而不是依赖额外的脚本最佳实践方案

使用 systemd 的原生功能来实现 Redis 的自动监控和重启,而不是依赖额外的脚本最佳实践方案方案 1:配置 systemd 服务文件(推荐)1. 检查/创建 Redis 的 systemd 服务文件2. 配置关键参数(覆盖配置示例)3. 重…

Eclipse 代码模板

Eclipse 代码模板 引言 Eclipse 作为一款功能强大的集成开发环境(IDE),深受广大开发者的喜爱。在编程过程中,使用代码模板可以大大提高开发效率,减少重复劳动。本文将详细介绍 Eclipse 代码模板的配置、使用方法以及一…

输电线路防外破声光预警装置 | 防山火/防钓鱼/防施工安全警示系统

在输电网络的安全保障中,外力破坏是一个不容忽视的问题,各类隐患可能对电力系统造成严重影响。TLKS-PMG-WP 输电线路声光防外破警示装置在应对这类挑战时,有着独特的技术表现,下面从功能和技术参数两方面进行详细介绍。核心功能解…

STM32——STM32CubeMX

总:STM32——学习总纲 一、简介 注意,非逻辑代码。 可兼容不同系列的STM32Cube固件包。 STM32Cube前置知识链接: STM32——HAL库 不可过多依赖,此工具只针对STM32芯片,类似英飞凌芯片无法配置。主要用于参考。 二、安…

Java NIO 核心原理与秋招高频面试题解析

一、NIO 概述Java NIO(New I/O 或 Non-blocking I/O)是 Java 1.4 引入的一套全新 I/O API,位于 java.nio 包下。NIO 提供了与传统 BIO(Blocking I/O)完全不同的 I/O 处理方式,通过非阻塞模式、缓冲区&#…

vue3+element-plus,el-popover实现筛选弹窗的方法

实现一个筛选框,点击筛选按钮出现弹窗,弹窗内有选择框/输入框/单选框等等,底部有重置/确定两个按钮。需求:点击筛选外部其他位置可以关闭弹窗,关闭弹窗后已编辑的数据不保存,点击确定按钮关闭弹窗&#xff…

python每日一题 贪心算法练习

在一条环路上有 n 个加油站,其中第 i 个加油站有汽油 gas[i] 升。你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发,开始时油箱为空。给定两个整数数组 gas 和 cost &…

Python + Pika RabbitMQ集群压测完整方案

一、最近搭建了个rabbitmq集群 三个磁盘节点,上生产环境之前想做个压测,测试下稳定性,参考Deepseek做了如下测试方案二、核心代码实现: 配置文件 (config.py) import os RABBITMQ_NODES [amqp://admin:123456192.168.0.175:8101,…

【第7话:相机模型3】自动驾驶IPM图像投影拼接技术详解及代码示例

IPM图像投影拼接技术详解 IPM(逆透视映射)图像投影拼接技术是一种在计算机视觉中广泛应用的图像处理方法,主要用于将多个透视视图的图像转换为鸟瞰视图并拼接成一个无缝的大场景图像。该技术特别适用于自动驾驶、机器人导航和监控系统等领域&…

【测试工程思考】测试自动化基础能力建设

1 回顾 传统软件研发体系下定义的软件测试是从用户视角设计的。测试是试图穷尽用户行为的工程,从测试用例(use case)的英文定义就可见一般。测试的逻辑资产就是用自然语言去描述用户的操作行为或路径。 但随着软件工程向分布式架构和敏捷交付…

进阶向:AI聊天机器人(NLP+DeepSeek API)

什么是AI聊天机器人? AI聊天机器人是一种通过自然语言处理(NLP)技术模拟人类对话的智能程序系统。其核心是建立在机器学习算法和大型语言模型基础上的对话引擎,能够理解用户的自然语言输入,分析语境和意图,并生成符合上下文的相关回复。 这类机器人系统通常包含以下几个…

一个C#的段子

猜猜按钮的结果是啥。 public partial class Form1 : Form { public Form1() { InitializeComponent(); } private void Form1_Load(object sender, EventArgs e) { } public static bool flag true; privat…