Spark SQL 架构概述

架构核心组件
  • API层(用户接口)

    • 输入方式:SQL查询;DataFrame/Dataset API。
    • 统一性: 所有接口最终转换为逻辑计划树(Logical Plan),进入优化流程。
  • 编译器层(Catalyst 优化器)

    • 核心引擎: 基于规则的优化器(Rule-Based Optimizer, RBO)与成本优化器(Cost-Based Optimizer, CBO)。

    • 处理流程:

      阶段输入输出关键动作
      解析SQL/API 操作未解析逻辑计划构建语法树(AST),校验语法正确性
      分析未解析逻辑计划解析后逻辑计划绑定元数据(表/列名、数据类型)、解析函数、检查语义正确性
      优化解析后逻辑计划优化后逻辑计划应用优化规则(如谓词下推、列剪裁、常量折叠、连接重排序)
    • 优化规则示例:

      Predicate Pushdown(谓词下推):将过滤条件推至数据源层,减少 I/O。

      Column Pruning(列裁剪):仅读取查询涉及的列,减少数据传输。

  • 执行计划层(Planner)

    • 物理计划生成:将优化后的逻辑计划转换为物理计划(Physical Plan)

    • 策略匹配: 根据数据分布、资源情况选择最优执行策略(如 BroadcastHashJoin vs SortMergeJoin)。

    • 物理优化:

      全阶段代码生成(Whole-Stage Codegen):将多个操作合并为单个 JVM 函数,减少虚函数调用开销。

      谓词下推至数据源:支持 Parquet/ORC 等格式的过滤条件下推。

  • 执行引擎层(Tungsten + Spark Core)

    • Tungsten 引擎:

      堆外内存管理:避免 JVM GC 开销,直接操作二进制数据。

      向量化计算:按列处理数据,提升 CPU 缓存命中率。

    • 分布式执行:

      物理计划转为 RDD DAG → 分解为 Stage → 调度 TaskExecutor 并行执行。

      利用 Spark Core 的血缘(Lineage)、内存管理、Shuffle 服务。

关键性能技术
  • Catalyst 优化器
    • 动态优化: 在逻辑计划阶段应用启发式规则,减少冗余计算。
    • 自适应查询(AQE, Spark 3.0+):运行时根据 Shuffle 数据量动态调整 Join 策略、分区数。
  • Tungsten 执行引擎
    • 内存效率: 紧凑二进制格式存储数据,减少内存占用 50%+。
    • 代码生成: 将查询编译为字节码,性能接近手写代码。
  • 统一数据源接入
    • Data Source API V2: 支持扩展自定义数据源(如 Kafka、Cassandra),并实现下推优化。
graph LRA[SQL 查询] --> B(Parser:生成语法树)B --> C(Analyzer:解析元数据)C --> D(Optimizer:应用优化规则)D --> E(Planner:生成物理计划)E --> F(Tungsten:代码生成+内存优化)F --> G(Spark Core:分布式执行)

Spark SQL高级语法

复杂数据类型
  • 数组 (ARRAY):同类型元素的有序集合(索引从0开始)。

    • size():数组长度。
    • explode():展开数组为多行。
    • array_contains(arr, value):检查元素是否存在。
    • transform(arr, x -> x * 2):对每个元素应用Lambda函数。
  • 映射(MAP<K,V>):键值对集合(键唯一)。

    • element_at(map, key):按键取值。

    • map_keys()/map_values():获取所有键/值。

    • map_concat(map1, map2):合并两个Map。

  • 结构体 (STRUCT<field1:T1, ...>):包含多个字段的复合类型(类似JSON对象)。

高级聚合与分组
  • GROUPING SETS:自定义聚合维度组合,无关字段用NULL值填充。

    SELECT city, department, SUM(salary) AS total_salary
    FROM employees
    GROUP BY GROUPING SETS ((city, department), (city), ()                  
    )
    
  • ROLLUP:层级聚合

    SELECT country, province, city,COUNT(*) AS count
    FROM locations
    GROUP BY ROLLUP(country, province, city)
    -- SQL结果会显示(country, province, city)、(country, province)、(country)、()的聚合结果
    
  • CUBE:所有维度聚合

    SELECT year, product, SUM(revenue) 
    FROM sales
    GROUP BY CUBE(year, product)
    -- SQL结果会显示(year, profucr)、(year)、(product)、()的聚合结果
    
  • 聚合过滤(FILTER 子句):对特定条件聚合 (比WHERE更高效)

    SELECT department,SUM(salary) FILTER (WHERE age > 30) AS senior_salary,AVG(salary) FILTER (WHERE gender = 'F') AS female_avg
    FROM employees
    GROUP BY department
    
窗口函数
  • 核心结构

    SELECTRANK() OVER (PARTITION BY dim ORDER BY metric DESCROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW -- 窗口范围) AS rank
    FROM table
    
  • 聚合函数:**SUM()、AVG()、COUNT()、MAX()、MIN()**等

  • 排名函数

    • ROW_NUMBER():为窗口内的每一行分配一个唯一的序号,序号连续且不重复。
    • RANK():排名函数,允许有并列的名次,名次后面会出现空位。
    • ENSE_RANK():排名函数,允许有并列的名次,名次后面不会空出位置,即序号连续。
  • 分组窗口函数

    • NTILE():将窗口内的行分为指定数量的组,每组的行数尽可能相等。
  • 分布窗口函数

    • PERCENT_RANK():计算每一行的相对排名,返回一个介于0到1之间的值,表示当前行在分区中的排名百分比。
    • CUME_DIST():计算小于或等于当前行的行数占窗口总行数的比例。
  • 取值窗口函数

    • LAG():访问当前行之前的第n行数据。
    • LEAD():访问当前行之后的第n行数据。
    • FIRST_VALUE():获取窗口内第一行的值。
    • LAST_VALUE():获取窗口内最后一行的值。
    • NTH_VALUE():获取窗口内第n行的值,如果存在多行则返回第一个。
  • 窗口范围

    • UNBOUNDED PRECEDING:从分区中的第一行开始(前面所有行)。
    • CURRENT ROW:包括当前行。
    • N PRECEDING:从当前行之前的第 nN行开始。
    • N FOLLOWING:包括当前行之后第 N 行。
    • UNBOUNDED FOLLOWING:到分区中的最后一行结束(后面所有行)。
Spark SQL内置函数
  • 聚合函数 (Aggregate Functions)

    函数返回值说明
    approx_count_distinctLong近似去重计数 (rsd=相对误差)
    collect_listArray收集值到数组 (保留重复)
    collect_setArray收集值到集合 (去重)
    corrDouble相关系数 (-1~1)
    covar_pop/covar_sampDouble总体/样本协方差
    kurtosisDouble峰度
    skewnessDouble偏度
    percentile_approxDouble近似百分位数
  • 数组函数 (Array Functions)

    函数说明
    array(e1, e2, …)转换为数组
    array_contains(arr, val)数组包含
    array_distinct数组去重
    array_position(arr, val)数组索引值
    size数组大小
  • Map 函数 (Map Functions)

    函数说明
    map(k1,v1, k2,v2)转化为map
    element_at(map, key)根据键获取值
    map_keys/map_values获取键列表、值列表
    map_entries获取map entry
  • 日期时间函数 (Datetime Functions)

    函数说明示例
    date_add/date_sub日期加减date_add('2025-07-01', 7)2025-07-08
    datediff日期差datediff('2025-06-01','2025-06-30')30
    date_format格式化date_format(ts, 'yyyy-MM')"2025-07"
    trunc截断日期trunc('2025-07-01', 'MONTH')2025-07-01
    window时间窗口流处理中按时间聚合
  • JSON 函数 (JSON Functions)

    函数说明示例
    get_json_objectJSON路径取值get_json_object('{"a":1}', '$.a')1
    json_tuple多字段提取json_tuple('{"name":"Bob"}', 'name')Bob
    from_json解析为结构体from_json('{"id":1}', 'id INT')
    to_json结构体转JSONto_json(struct('Tom' AS name))'{"name":"Tom"}'
    schema_of_json推断Schemaschema_of_json('[{"a":1}]')ARRAY<STRUCT<a:INT>>
  • 字符串函数 (String Functions)

    函数说明示例
    concat_ws字符串拼接joinconcat_ws('-','2025','07')"2025-07"
    split字符串解析转数组split('a,b,c', ',')["a","b","c"]
    regexp_extract正则表达式regexp_extract('id=100','id=(\\d+)',1)"100"
    translate字符串子串转化translate('hello','el','ip')"hippo"
    parse_url解析URLparse_url('http://a.com?q=spark','QUERY')"q=spark"

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/87578.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/87578.shtml
英文地址,请注明出处:http://en.pswp.cn/web/87578.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习深度学习】什么是下游任务模型?

目录 前言 一、什么是下游任务模型&#xff1f; 二、为什么需要下游任务模型&#xff1f; 三、下游任务模型都在干嘛&#xff1f; 四、下游模型怎么训练出来的&#xff1f; 五、图解理解&#xff1a;上游 vs 下游 六、一个现实案例&#xff1a;BERT做情感分析 原始数据…

补充:问题:CORS ,前后端访问跨域问题

补充&#xff1a;问题&#xff1a;CORS &#xff0c;前后端访问跨域问题 我这边的解决方法是&#xff1a; myAxios.defaults.withCredentials true; // 配置为true&#xff0c;表示前端向后端发送请求的时候&#xff0c;需要携带上凭证cookie整体的&#xff1a; import axio…

洛谷 P13014 [GESP202506 五级] 最大公因数-普及-

题目描述 对于两个正整数 a,ba,ba,b&#xff0c;他们的最大公因数记为 gcd⁡(a,b)\gcd(a,b)gcd(a,b)。对于 k>3k > 3k>3 个正整数 c1,c2,…,ckc_1,c_2,\dots,c_kc1​,c2​,…,ck​&#xff0c;他们的最大公因数为&#xff1a; gcd⁡(c1,c2,…,ck)gcd⁡(gcd⁡(c1,c2,……

前端-CSS-day1

目录 1、初识CSS 2、CSS引入方式 3、标签选择器 4、类选择器 5、id选择器 6、通配符选择器 7、画盒子 8、字体大小 9、字体粗细 10、字体倾斜 11、行高 12、行高-垂直居中 13、字体族 14、font属性 15、文本缩进 16、文本对齐方式 17、图片对齐方式 18、文本…

解锁万能文件内容提取器:Apache Tika

01 引言 在日常工作中&#xff0c;你是否曾为这些场景头疼过&#xff1f; 堆积如山的PDF、Word、Excel文档&#xff0c;如何快速提取关键信息&#xff1f;用户上传的文件五花八门&#xff0c;如何自动识别类型并安全处理&#xff1f;构建搜索引擎时&#xff0c;如何让系统“读懂…

gemini-cli初体验

目录 准备配置环境变量运行使用基础使用配置MCP调用MCP 参考 准备 NodeJS 18版本 配置环境变量 设置GEMINI_API_KEY 变量&#xff0c;在https://aistudio.google.com/apikey创建key 设置代理&#xff08;可选&#xff0c;取决于您的网络&#xff09;,不配置可能会报错 api e…

Java --类变量和类方法--main语句

1. 类变量和类方法 介绍&#xff1a; 类变量也叫静态变量/静态属性&#xff0c;是该类的所有对象共享的变量&#xff0c;任何一个该类的对象去访问它时&#xff0c;取到的都是相同的值&#xff0c;同样任何一个该类的对象去修改它时&#xff0c;修改的也是同一个变量。 语法…

spring boot项目配置使用minion

一. Minio概述 Minio是一款开源的高性能对象存储服务,兼容Amazon S3 API,适用于私有云、混合云及边缘计算场景。它采用分布式架构设计,支持水平扩展,提供数据加密、版本控制、生命周期管理等企业级功能,适用于存储非结构化数据(如图片、视频、日志等)。 核心特性 S3兼…

<5>_Linux进程控制

目录 一&#xff0c;进程创建&#xff0c;fork/vfork 1&#xff0c;fork创建子进程&#xff0c;操作系统都做了什么 2&#xff0c;写时拷贝的做了什么 二&#xff0c;进程终止&#xff0c;echo $&#xff1f; 1&#xff0c;进程终止时&#xff0c;操作系统做了什么 2&…

阿里云服务器正确配置 Docker 国内镜像的方法

&#x1f4e6; 原理说明&#xff1a;什么是“Docker 镜像加速器”&#xff1f; Docker 默认会从官方仓库 registry-1.docker.io 拉取镜像。由于网络原因&#xff0c;在中国大陆访问这个地址较慢甚至失败。 镜像加速器的作用是&#xff1a; 在国内部署一个缓存服务器&#xf…

PH热榜 | 2025-07-05

1. todai 标语&#xff1a;你的第一份个性化快乐生活指数 介绍&#xff1a;Todai 是你个人的人工智能助手&#xff0c;帮助你获得心理清晰和情感平衡。你可以随时随地记录自己的情绪&#xff0c;发现情绪变化的规律&#xff0c;并获取基于科学的工具。 产品网站&#xff1a;…

c++ duiLib环境集成

duiLib的Github链接&#xff1a;https://github.com/duilib/duilib 使用vcpkg快速安装duilib以及配置。步骤如下&#xff1a; 1、用git下载vcpkg&#xff0c;下载报错&#xff0c;这个错误通常表明在Git克隆过程中&#xff0c;与GitHub服务器的SSL连接被意外重置。改用http下…

一项基于粒子图像测速PIV系统的泥石流模拟冲击实验

1实验背景 全国进入“七下八上”防汛关键期&#xff0c;泥石流作为山区常见地质灾害&#xff0c;突发性强&#xff0c;破坏力大&#xff0c;对人民群众生命财产安全造成威胁&#xff0c;传统观测手段难以实现对碎石运动轨迹与水流场耦合效应的精细观测。而粒子图像测速PIV技术…

ADAS功能介绍

ADAS功能介绍 ADAS&#xff08;Advanced Driving Assistance System&#xff09;高级驾驶辅助系统&#xff0c;可分为如下几大类功能。 IA&#xff08;Information Assist&#xff09;信息辅助类 IA类功能&#xff0c;均不包含驾驶行为的控制。这些功能又可以进一步细分为三…

【LUT技术专题】CLUT代码讲解

本文是对CLUT技术的代码讲解&#xff0c;原文解读请看CLUT文章讲解。 1、原文概要 CLUT利用矩阵在保持3DLUT映射能力的前提下显著降低了参数量。整体流程如下所示。 整体还是基于3D-LUT的框架&#xff0c;只不过添加了一个压缩自适应的变换矩阵。作者使用的损失函数在3DLUT的…

在LinuxMint 22.1(Ubuntu24.04)上安装使用同花顺远航版

刚刚在LinuxMint 22.1(Ubuntu24.04)安装完成同花顺远航版&#xff0c;体验特别好&#xff0c;忍不住要及时给深受Linux平台无好用行情软件之苦的朋友们进行分享了。在此之前我一直只能用同花顺Linux原生版的行情软件&#xff0c;但是该软件只有很基本的行情功能&#xff0c;而且…

解决vue3路由配合Transition时跳转导致页面不渲染的问题

问题复现 <router-view v-slot"{ Component, route }"><transition name"fade" mode"out-in"><keep-alive><component :is"Component" :key"route.path" /></keep-alive></transition>…

java: 无法访问org.springframework.boot.SpringApplication,类文件具有错误的版本 61.0, 应为 52.0

问题 java: 无法访问org.springframework.boot.SpringApplication 错误的类文件: /D:/.m2/repository/org/springframework/boot/spring-boot/3.3.13/spring-boot-3.3.13.jar!/org/springframework/boot/SpringApplication.class 类文件具有错误的版本 61.0, 应为 52.0 请删除…

Docker拉取nacos镜像

以下是使用 Docker 拉取并运行 Nacos&#xff08;阿里巴巴开源的配置中心和服务发现组件&#xff09;镜像的详细指南&#xff1a; 1. 拉取 Nacos 官方镜像 拉取最新版 Nacos 镜像&#xff08;推荐指定版本以避免兼容性问题&#xff09;&#xff1a; # 拉取最新版本&#xff…

【CTF-Web环境搭建】kali

Kali虚拟机下载 这里在官网上下载下kali虚拟机Get Kali | Kali Linux 网速比较慢的话打开一下加速器 下载完成后 得到一个压缩包 选择一个合适的地方将这个压缩包解压一下 记住这个文件目录 这里为了后续方便 简历一个叫做Virtual Machines的文件夹 里面就可以放不同的虚拟机…