经常去重复数据,数据需要转等操作,汇总高级SQL MySQL操作

 

一、数据去重(Data Deduplication)

 

去重常用于清除重复记录,保留唯一数据。

 

1. 使用DISTINCT关键字去重单列

 

-- 从用户表中获取唯一的邮箱地址

SELECT DISTINCT email FROM users;

 

 

2. 使用GROUP BY结合聚合函数去重多列

 

-- 按姓名和手机号去重,获取最新注册的用户

SELECT name, phone, MAX(register_time) AS latest_time

FROM users

GROUP BY name, phone;

 

 

3. 使用CTE和ROW_NUMBER()窗口函数标记重复行并删除

 

-- 先标记重复行,再删除非首行记录

WITH DuplicateRows AS (

    SELECT id, name, email,

           ROW_NUMBER() OVER(PARTITION BY email ORDER BY id) AS row_num

    FROM users

)

DELETE FROM DuplicateRows WHERE row_num > 1;

 

 

二、数据行转列(Pivot Table)

 

将行数据转换为列,常用于统计汇总场景。

 

1. 使用CASE WHEN手动实现行转列

 

-- 统计每个用户的不同订单类型数量

SELECT user_id,

       SUM(CASE WHEN order_type = '食品' THEN 1 ELSE 0 END) AS food_orders,

       SUM(CASE WHEN order_type = '服装' THEN 1 ELSE 0 END) AS clothes_orders,

       SUM(CASE WHEN order_type = '数码' THEN 1 ELSE 0 END) AS digital_orders

FROM orders

GROUP BY user_id;

 

 

2. 使用IF函数结合GROUP BY实现动态列

 

-- 按月份统计销售额(假设月份存于month列)

SELECT product_id,

       SUM(IF(month = 1, sales_amount, 0)) AS jan_sales,

       SUM(IF(month = 2, sales_amount, 0)) AS feb_sales,

       SUM(IF(month = 3, sales_amount, 0)) AS mar_sales

FROM sales

GROUP BY product_id;

 

 

3. 使用动态SQL生成行转列语句(适用于列名不确定的场景)

 

-- 动态生成SQL(需先查询列名)

SET @sql = NULL;

SELECT GROUP_CONCAT(DISTINCT 

       CONCAT('SUM(CASE WHEN category = ''', category, ''' THEN amount ELSE 0 END) AS `', category, '`')

) INTO @sql

FROM sales_data;

 

SET @sql = CONCAT('SELECT year, ', @sql, ' FROM sales_data GROUP BY year');

PREPARE stmt FROM @sql;

EXECUTE stmt;

DEALLOCATE PREPARE stmt;

 

 

三、数据类型转换(Data Type Conversion)

 

在MySQL中转换数据类型,需注意兼容性和精度损失。

 

1. 显式转换:使用CAST()函数

 

-- 将字符串转为日期类型

SELECT CAST('2025-06-20' AS DATE) AS date_value;

 

-- 将数字转为字符串(常用于拼接)

SELECT CONCAT('订单金额:', CAST(amount AS CHAR)) AS order_info

FROM orders;

 

 

2. 显式转换:使用CONVERT()函数

 

-- 将字符串转为DECIMAL类型(保留2位小数)

SELECT CONVERT('123.45', DECIMAL(10,2)) AS price;

 

-- 将日期转为UNIX时间戳

SELECT CONVERT('2025-06-20', UNSIGNED) AS timestamp_value;

 

 

3. 隐式转换(MySQL自动转换,但需注意风险)

 

-- 字符串自动转数字(仅当字符串为纯数字时有效)

SELECT '123' + 456; -- 结果:579

 

-- 日期字符串自动转日期类型(需符合格式)

INSERT INTO dates (date_col) VALUES ('2025-06-20');

 

 

注意事项

 

- 数据去重:使用 DISTINCT 时会对所有列去重,性能低于 GROUP BY ;删除重复行前建议先备份数据。

- 行转列:手动编写CASE WHEN适用于列数固定的场景,动态SQL需注意SQL注入风险。

- 类型转换:隐式转换可能导致意外错误(如 'abc' + 1 会转为 0 + 1 ),建议优先使用显式转换。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/85863.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/85863.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/85863.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RA4M2开发涂鸦模块CBU(2)----配置按键开启LED

RA4M2开发涂鸦模块CBU.2--配置按键开启LED 概述视频教学样品申请硬件准备参考程序按键口配置中断回调函数主程序 概述 本实验演示如何在 Renesas RA4M2 单片机上使用 GPIO 输入(按键) 触发 GPIO 输出(LED),并使用e2st…

Linux——Json

一 概念 json是一种轻量级,基于文本的,可读的数据交换格式,能够让数据在不同系统(比如前端—后端,服务器—客户端)间方便传递/存储。在编程语言中都内置了处理json数据的方法 二 语法规则 1. 数据格式&a…

大模型之微调篇——指令微调数据集准备

写在前面 高质量数据的准备是微调大模型的重中之重,一些高质量的数据集可能远比模型性能更佳重要。 我是根据自己的数据照着B站up code花园LLaMA Factory 微调教程:如何构建高质量数据集?_哔哩哔哩_bilibili做的。 数据集格式 在LLaMA Fa…

LVS—DR模式

LVS—DR模式 LVS DR 模式详细简介 一、模式定义与核心原理 LVS DR(Direct Routing)模式,即直接路由模式,是 Linux Virtual Server(LVS)实现负载均衡的经典模式之一,工作于网络四层&#xff0…

宝玉分享VibeCoding构建Agent

借助 Claude Code 完成的一个翻译智能体 (Translator Agent)。你只需输入一段文字、一个网址或一个本地文件路径,它就能自动提取内容并完成翻译。更酷的是,它还能修正原文中的拼写错误,确保译文的准确流畅。 到底什么是“真正的”AI Agent&a…

在spring boot中使用Logback

在 Spring Boot 中使用 Logback 作为日志框架是开发中的常见需求,因其高性能和灵活配置而广受青睐。以下是详细实践指南,结合了配置方法、代码示例及最佳实践: 🔧 一、依赖配置 Spring Boot 默认集成了 Logback,无需手…

腾讯云 Lighthouse 轻量应用服务器:数据驱动的架构选型指南

摘要:腾讯云 Lighthouse 作为面向轻量级应用场景的优化解决方案,通过高性价比套餐式售卖、开箱即用应用模板及流量包计费模式,显著降低中小企业与开发者的上云门槛。本文基于性能测试与横向对比,量化分析其核心优势与适用边界。 …

Linux TCP/IP协议栈中的TCP输入处理:net/ipv4/tcp_input.c解析

在网络通信领域,TCP(传输控制协议)因其可靠的面向连接特性而被广泛应用。Linux内核的TCP/IP协议栈实现了对TCP协议的高效处理,其中net/ipv4/tcp_input.c文件扮演着关键角色,负责处理TCP数据包的输入逻辑。下面是对该文件核心功能的深入剖析。 一、TCP数据包接收与处理 (…

物联网传输网关、RTU、DTU及SCADA系统技术解析

目录 摘要 一、引言 二、物联网传输网关 1. 定义 2. 类型 3. 分类 4. 工作原理 5. 差异分析 总结: 三、RTU(远程终端单元) 1. 定义 2. 工作原理 3. 特点 4. 应用场景 四、DTU(数据传输单元) 1. 定义 …

【unity游戏开发——热更新】YooAsset简化资源加载、打包、更新等流程

注意:考虑到热更新的内容比较多,我将热更新的内容分开,并全部整合放在【unity游戏开发——热更新】专栏里,感兴趣的小伙伴可以前往逐一查看学习。 文章目录 前言1、什么是YooAsset?2、系统需求3、系统特点 一、下载安装…

AWS RDS/Aurora 开启 Database Insights 高级模式全攻略

想要深入了解数据库性能问题?AWS Database Insights 高级模式为您提供强大的性能分析工具。本文详细对比标准模式与高级模式的功能差异,并提供完整的启用指南和实战测试结果。 一、Database Insights 模式对比 AWS CloudWatch Database Insights 提供两种模式:标准模式和高…

XML SimpleXML

XML SimpleXML 引言 XML(可扩展标记语言)是一种用于存储和传输数据的标记语言,它被广泛应用于Web服务和数据交换。SimpleXML是PHP中一个处理XML数据非常便捷的库。本文将详细介绍SimpleXML库的基本用法,帮助读者快速掌握XML数据…

Docker简单介绍与使用以及下载对应镜像(项目前置)

DockerDocker安装Docker卸载Docker配置镜像源配置镜像加速 Docker服务命令1.镜像操作命令2.容器操作命令 安装Mysql**数据卷挂载** Docker 在linux中软件安装说起: 以前在linux中安装软件,是直接安装在linux操作系统中,软件和操作系统耦合度很高,不方便管理. 因为linux版本不…

MyBatis 简介

MyBatis 简介 MyBatis 是一款优秀的持久层框架,它支持定制化 SQL、存储过程以及高级映射,能够帮助开发者将 Java 对象与数据库表进行灵活映射,简化数据持久化操作。以下从多个维度详细介绍 MyBatis: 一、核心定位与优势 轻量级…

自监督学习在合成孔径声呐目标识别中的应用之论文阅读

自监督学习在合成孔径声呐目标识别中的应用 BW Sheffield 美国巴拿马城海军水面作战中心 1 引言 在自主水下航行器(AUVs)中应用计算机视觉面临着独特的挑战,因为海洋环境往往条件不可预测且极为严苛。传统计算机视觉研究主要依赖光学相机成像,而在光照不足、悬浮沉积物及水…

进程间通信2(命名管道)linux

1 命名管道 前面讲到匿名管道,有一个很大的限制,那就是只有具有相同祖先(具有亲缘关系)的进程间才能进行通信,但是如果想实现不同进程间的通信,这个时候命名管道就发挥着巨大作用。 命名管道是一种特殊类…

简单通过SenseVoice给自己配置一个语音转文字服务

首先把代码下载下来 gitgithub.com:FunAudioLLM/SenseVoice.git 然后写一个docker文件 FROM ubuntu:latestRUN apt-get update -y RUN apt-get install -y python3-full python3-pip RUN mkdir -p /SenseVoice WORKDIR /SenseVoice RUN python3 -m venv . ENV USE_CUDA0 EXP…

网络钓鱼攻击

​根据2023年Proofpoint年度网络钓鱼报告显示:91%的针对性攻击始于钓鱼邮件,平均每30秒就有一个企业成为攻击目标,全球损失超过$6.5B​ 一、钓鱼攻击技术深度解析 1. 钓鱼攻击核心技术架构 2. 现代钓鱼技术演进 ​攻击向量升级路线​ ​当前…

uvicorn api:app --host 0.0.0.0 --port 7777容器运行失败

docker logs pycorrector-container-gpu 你这个报错的核心是: ERROR: Error loading ASGI app, Could not import module "api".这说明: uvicorn api:app 没有找到 api.py 文件,或者没法导入 app 对象。 🔍 一步步排查…

热成像仪测MOSFET温度

热成像仪测MOSFET温度 根据提供的搜索结果,热测量方法主要分为非接触式和接触式两大类,针对不同材料特性和测量场景各有优势。以下是核心方法的总结及关键技术要点: 🔥 一、非接触式热测量方法 红外热成像技术 原理:通…