下一篇:

《Python数据分析基础04:预测性数据分析》

Python数据分析基础03:探索性数据分析

python数据分析基础02:数据可视化分析

Python数据分析基础01:描述性统计分析

描述性统计分析是统计学中最基础、应用最广泛的部分。它旨在通过总结、组织和简化数据,来描述和展示数据集合的主要特征,帮助我们理解数据的“样子”,而不涉及对总体进行推断(那是推断统计的任务)。

1.0  核心目的:

  1. 概括数据: 用少数几个关键指标(如平均值、标准差)代表大量数据。

  2. 发现模式: 识别数据的分布形状、集中趋势、离散程度以及变量间可能的关系。

  3. 识别异常: 找出数据中可能存在的异常值。

  4. 数据呈现: 通过图表清晰、直观地展示数据特征。

  5. 为推断统计打基础: 提供对数据的初步理解,指导后续更复杂的分析(如假设检验、回归分析)。

2.0  主要分析内容:

描述性统计分析通常从以下几个关键维度来描述数据:

  1. 集中趋势:

    • 描述数据点围绕哪个中心值聚集。

    • 常用指标:

      • 均值: 所有数值的和除以数值个数。最常用,但受极端值影响大。Mean = Σxᵢ / n

      • 中位数: 将数据按大小排序后,位于中间位置的值。不受极端值影响,更能反映数据的“典型”中心。奇数个数据取中间值,偶数个取中间两个的平均值。

      • 众数: 数据集中出现频率最高的值。一个数据集可以有多个众数(多峰分布)或没有众数。适用于分类数据和数值数据。

  2. 离散程度:

    • 描述数据点偏离中心值的程度有多大,数据是紧密聚集还是分散开。

    • 常用指标:

      • 极差: 最大值与最小值之差。计算简单,但只利用了数据两端的信息,对异常值敏感。

      • 方差: 各数据点与均值之差的平方的平均值。衡量数据偏离均值的平均程度。Variance (s²) = Σ(xᵢ - Mean)² / (n - 1) (样本方差公式)。

      • 标准差: 方差的平方根。单位与原数据一致,是最常用的离散程度度量。Standard Deviation (s) = √Variance。标准差小,数据围绕均值紧密聚集;标准差大,数据分散。

      • 四分位距: 第三四分位数(Q3, 75%位置)与第一四分位数(Q1, 25%位置)之差。IQR = Q3 - Q1。衡量中间50%数据的离散程度,不受极端值影响,是识别异常值的基础(常用 Q1 - 1.5*IQR 和 Q3 + 1.5*IQR 作为异常值边界)。

      • 平均绝对偏差: 各数据点与均值(或中位数)之差的绝对值的平均值。概念直观,但数学性质不如方差/标准差好。

  3. 分布形态:

    • 描述数据分布的对称性、偏斜程度和尖峰程度。

    • 常用指标和图:

      • 偏度: 衡量分布不对称性的方向和程度。

        • 偏度 ≈ 0: 分布大致对称(如正态分布)。

        • 偏度 > 0: 正偏态/右偏态。数据向右(较大值方向)拖尾。均值 > 中位数 > 众数

        • 偏度 < 0: 负偏态/左偏态。数据向左(较小值方向)拖尾。均值 < 中位数 < 众数

      • 峰度: 衡量分布曲线顶峰的尖锐程度(与正态分布相比)。

        • 峰度 ≈ 0: 峰度与正态分布相当(常峰态)。

        • 峰度 > 0: 尖峰态。数据分布比正态分布更集中在均值附近,尾部更厚。

        • 峰度 < 0: 低峰态/平顶峰。数据分布比正态分布更分散,尾部更薄。

      • 直方图: 最直观展示分布形状的图表。

      • 箱线图: 能同时展示中位数、四分位数、极差、异常值,对分布形状有粗略展示(特别是偏斜和异常值)。

      • Q-Q图 / P-P图: 用于更精确地检验数据是否服从特定分布(如正态分布)。

  4. 变量间关系:

    • 当数据集包含多个变量时,描述性统计也用于探索变量之间的关联。

    • 常用方法:

      • 散点图: 两个连续变量之间关系的直观展示(正相关、负相关、非线性相关、无相关)。

      • 协方差: 衡量两个变量协同变化的方向。正值表示同向变化,负值表示反向变化。Cov(X,Y) = Σ[(xᵢ - Meanₓ)(yᵢ - Meanᵧ)] / (n - 1)。但其数值大小受变量自身量纲影响,不便于直接比较相关性强弱。

      • 相关系数:

        • 皮尔逊相关系数: 衡量两个连续变量之间线性关系的强度和方向。r = Cov(X,Y) / (sₓ * sᵧ)。取值范围 [-1, 1]。

          • |r| ≈ 1: 强线性相关。

          • |r| ≈ 0: 弱线性相关或无线性相关(可能存在非线性关系)。

          • r > 0: 正相关。

          • r < 0: 负相关。

        • 斯皮尔曼等级相关系数: 衡量两个变量之间的单调关系(不一定是线性)的强度和方向。基于数据的排名计算。

        • 卡方检验 / 列联表: 用于分析两个分类变量之间是否存在关联。

      • 交叉表: 展示两个或多个分类变量联合分布的频数或比例。

常用工具与方法:

  • 统计量计算: 直接计算上述各种指标(均值、标准差、方差、中位数、四分位数、极差、IQR、偏度、峰度、相关系数等)。

  • 数据可视化:

    • 单变量: 直方图、箱线图、茎叶图、饼图(分类数据)、条形图(分类数据)。

    • 双变量: 散点图、分组条形图、堆叠条形图、热力图。

    • 多变量: 散点图矩阵、平行坐标图(较少用)。

  • 频数分布表: 展示数据在不同类别或区间内出现的次数或比例。

描述性统计 vs. 推断性统计:

这是初学者容易混淆的关键点:

特征描述性统计推断性统计
目的描述样本数据的特征利用样本数据推断总体特征或检验假设
对象样本数据本身样本数据代表的未知总体
方法计算统计量、绘制图表参数估计(置信区间)、假设检验、回归分析等
结论报告样本的实际情况(如样本均值=5.2)对总体做出概率性陈述(如总体均值可能在4.8-5.6之间,置信度95%)
不确定性不涉及抽样误差核心是量化和管理抽样误差带来的不确定性

重要性与应用:

描述性统计是任何数据分析项目的第一步和基础。它在几乎所有涉及数据的领域都有广泛应用:

  • 商业智能: 报告销售总额、平均订单额、客户地域分布、产品销量排名等。

  • 市场研究: 描述消费者人口统计特征(年龄、性别分布)、满意度评分均值、品牌认知度比例等。

  • 金融: 计算股票收益率均值、波动率(标准差)、风险价值。

  • 社会科学: 描述调查问卷结果(各选项比例、平均态度得分)、人口普查数据(平均收入、教育水平分布)。

  • 自然科学与工程: 报告实验数据的平均值、误差范围(标准差)、测量结果的分布。

  • 质量控制: 监控生产过程的均值、标准差、合格率。

  • 日常报告: 任何需要总结和展示数据的场合。

总结:

描述性统计分析是打开数据宝库的第一把钥匙。它通过计算关键统计量(集中趋势、离散程度、分布形态)和绘制直观图表(直方图、箱线图、散点图等),有效地总结、简化和呈现数据的主要特征和模式,帮助我们快速理解“数据讲了什么故事”。它为后续更复杂的推断性统计分析、建模和决策提供了不可或缺的基础和洞察。不做好描述性统计就急于进行高级分析,就像不看地图就一头扎进未知森林一样危险。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88130.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88130.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/88130.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

成员不更新项目进度,如何建立进度更新机制

项目成员不及时更新进度的主要原因包括责任不明确、缺乏更新规则、沟通机制不畅、进度意识薄弱、工具使用不当等。其中尤其需要关注的是建立清晰的进度更新规则。明确规定成员应何时、如何、向谁汇报进度情况&#xff0c;使得项目的每项任务都有责任人和明确的更新频率及形式&a…

JVM 整体架构详解:线程私有与线程共享内存区域划分

Java 虚拟机&#xff08;JVM&#xff09;作为 Java 程序运行的基础&#xff0c;其内存模型和线程结构设计直接影响着程序的执行效率和稳定性。本文将从 线程是否共享 的角度出发&#xff0c;对 JVM 的整体内存结构进行清晰分类与简明解析。一、JVM 内存区域划分概览 根据是否被…

【Linux庖丁解牛】— 库的理解与加载!

1. 目标文件编译和链接这两个步骤&#xff0c;在Windows下被我们的IDE封装的很完美&#xff0c;我们⼀般都是⼀键构建⾮常⽅便&#xff0c; 但⼀旦遇到错误的时候呢&#xff0c;尤其是链接相关的错误&#xff0c;很多⼈就束⼿⽆策了。在Linux下&#xff0c;我们之前也学 习过如…

QML事件处理:鼠标、拖拽与键盘事件

在QML应用开发中&#xff0c;用户交互是构建动态界面的核心。本文将全面解析QML中的三大交互事件&#xff1a;鼠标事件、拖拽事件和键盘事件&#xff0c;通过实际代码示例展示如何实现丰富的用户交互体验。一、鼠标事件处理1. MouseArea基础MouseArea是QML中处理鼠标交互的核心…

MySQL 8.0 OCP 1Z0-908 题目解析(20)

题目77 Choose the best answer. Which step or set of steps can be used to rotate the error log? ○ A) Execute SET GLOBAL max_error_count . ○ B) Rename the error log file on disk, and then execute FLUSH ERROR LOGS. ○ C) Execute SET GLOBAL log_error ‘’…

八股学习(四)---MySQL

一、MySQL如何进行SQL调优&#xff1f;我的回答&#xff1a;面试官好&#xff01;我想从SQL语句本身和数据库结构两方面来做MySQL的SQL调优。首先会优化SQL写法&#xff0c;比如避免用SELECT *、减少子查询嵌套&#xff0c;用JOIN代替&#xff0c;还有合理使用索引&#xff0c;…

华中科大首创DNN衍射量子芯片登《Science Advances》:3D打印实现160μm³高维逻辑门

01 前言华中科技大学王健/刘骏团队在《Science Advances》发表突破性研究&#xff0c;利用飞秒激光三维打印技术&#xff0c;制造出全球首个聚合物基超紧凑高维量子光芯片。该芯片仅160微米见方&#xff08;约头发丝直径的1.5倍&#xff09;&#xff0c;却实现了光子空间模式的…

【排序】插入排序

如果你已经对排序略知一二&#xff0c;现在正在复习排序的一些重点知识 ------------------------------------------------------------------------------------------------------------------------- 点赞收藏&#x1f308;&#xff0c;每天更新总结文章&#xff08;多以图…

扣子Coze怎么模仿人类输出(分段输出)?

效果&#xff1a; 让AI回复的更像人类 教程&#xff1a; 工作流&#xff1a; 假设大模型节点就是需要的回复&#xff0c;并且已经按句号&#xff08;。&#xff09;区别开每句话 后面连接一个 文本处理 节点&#xff0c;选择“字符串分隔”&#xff0c;按“。”进行分割 分…

Android 应用开发 | 一种限制拷贝速率解决因 IO 过高导致系统卡顿的方法

文章目录一、问题背景二、代码实现一、问题背景 经常做 Android 应用的小伙伴应该会有经验&#xff0c;就是如果应用在写入文件的时候&#xff0c;即使写文件的动作是在子线程&#xff0c;也会出现 UI 上的卡顿&#xff0c;这是因为文件的 IO 是由内核去完成的&#xff0c;此时…

力扣面试150(19/150)

7.7 12. 整数转罗马数字 七个不同的符号代表罗马数字&#xff0c;其值如下&#xff1a; 符号值I1V5X10L50C100D500M1000 罗马数字是通过添加从最高到最低的小数位值的转换而形成的。将小数位值转换为罗马数字有以下规则&#xff1a; 如果该值不是以 4 或 9 开头&#xff0c;…

数据结构与算法——从递归入手一维动态规划【1】

前言&#xff1a; 简单记录对左程云系列算法课程--算法讲解066【必备】的学习&#xff0c;这是第一篇。主要提供C代码和一些简单的个人理解&#xff0c;如需要细致讲解请移步原视频。 涉及内容&#xff1a; 斐波那契数列、动态规划 参考视频&#xff1a; 左程云--算法讲解…

搭建个人博客系列--Nacos 注册中心

基础项目已完成&#xff0c;接下来就是SpringCloud的各种组件了。 那你又要问&#xff1a;既然有Nacos为什么之前还装了Apollo&#xff1f; 那你别管&#xff0c;那不得什么都会点&#xff0c;不然怎么找工作。干就完了。 一、安装Nacos 管他三七二十一&#xff0c;先在doc…

前端实习总结——案例与大纲

以下是一个结合真实场景的前端面试案例&#xff0c;包含面试流程、核心问题、候选人回答思路及面试官考察点&#xff0c;可直观感受如何在面试中展现实习/项目经历&#xff1a; 案例背景 候选人&#xff1a;应届生&#xff0c;有6个月前端实习经历&#xff0c;参与过“企业内部…

Web前端开发: :where(伪类函数选择器)

:where(伪类函数选择器)&#xff1a;:where() 是 CSS Selectors Level 4 规范中引入的一个强大的伪类函数选择器&#xff0c;它允许开发者以简洁的方式编写复杂的选择器&#xff0c;同时具有独特的优先级特性。核心概念&#xff1a;:where() 伪类函数选择器与 :is() 非常相似&a…

EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba论文精读(逐段解析)

EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba论文精读&#xff08;逐段解析&#xff09; 论文地址&#xff1a;https://arxiv.org/abs/2403.09977 CVPR 2024 Abstract. Prior efforts in light-weight model development mainly centered on CNN an…

Integer缓冲区

文章目录常见面试题&#xff1a;总结Integer缓冲区是Java预先创建的一个固定范围的Integer对象缓存池&#xff08;默认-128到127&#xff09;&#xff0c;用于自动复用频繁使用的整数值&#xff0c;减少内存开销和对象创建。当通过自动装箱或Integer.valueOf()生成该范围内的整…

[国家电网备考]计算机网络

计算机网络的概述 概念: 用通信设备与线路将地理位置不同,功能独立的计算机系统互连起来,以功能完善的网络软件实现网络中资源共享和信息传递的系统 自治计算机: 能够自我管理,配置,维护的计算机(目前我们使用的电脑) 以前的终端只有显示器,不能叫做自治计算机 计算机网络向用户…

在 Linux(openEuler 24.03 LTS-SP1)上安装 Kubernetes + KubeSphere 的防火墙放行全攻略

目录 在 Linux&#xff08;openEuler 24.03 LTS-SP1&#xff09;上安装 Kubernetes KubeSphere 的防火墙放行全攻略 一、为什么要先搞定防火墙&#xff1f; 二、目标环境 三、需放行的端口和协议列表 四、核心工具说明 1. 修正后的 exec.sh 脚本&#xff08;支持管道/重…

HTTP 响应头信息详解

HTTP 响应头信息详解 引言 HTTP(超文本传输协议)是互联网上应用最为广泛的网络协议之一。在HTTP协议中,响应头信息是服务器向客户端发送的重要信息之一。响应头信息包含了关于响应的元数据,如状态码、内容类型、缓存策略等。本文将详细介绍HTTP响应头信息的概念、类型、作…