相关文章:
《python数据分析基础02:数据可视化分析》
《Python数据分析基础01:描述性统计分析》
探索性数据分析(Exploratory Data Analysis, EDA) 的深度解析,涵盖核心目标、方法论框架、关键技术及可视化示例,严格遵循去工具化、重业务逻辑原则,通过示意图说明分析逻辑。
一、EDA的本质与目标
1. 核心定义
- 业务定位:在建立正式模型前,通过可视化与统计技术理解数据内在结构、发现隐藏规律、识别异常与关联性的科学探索过程。
- 与传统分析的区别:
2. 四大核心目标
目标 | 业务意义 | 关键技术 |
数据结构理解 | 识别关键变量分布与数据质量 | 分布图、数据类型分类 |
异常值检测 | 发现数据采集错误或特殊业务事件 | 箱线图、Z-score分析 |
变量关联挖掘 | 揭示影响业务结果的潜在驱动因素 | 散点图矩阵、相关性热力图 |
模式识别 | 预判业务趋势与周期性规律 | 时间序列分解、聚类分析 |
二、EDA方法论框架(四阶循环)
三、关键技术详解(附示意图逻辑)
1. 单变量分析:理解个体特征
- 分布分析示意图
业务解读:- 左偏分布:如用户年龄→ 年轻用户占比高,需关注尾部高龄群体需求
- 双峰分布:如产品销量→ 可能存在两类客户群体(企业/个人)
- 异常值检测(箱线图逻辑)
关键参数:- IQR(四分位距) = Q3-Q1
- 异常边界:Q3 + 1.5IQR / Q1 - 1.5IQR
业务案例:
信用卡交易中 >$10,000 的消费需人工复核(风控规则触发点)
2. 多变量分析:关系网络构建
- 相关性热力图(业务决策导向)
解读要点:- 深红色(|r|>0.8):强相关→ 警惕多重共线性(如广告费与销售额)
- 深蓝色(r<-0.6):强负相关→ 机会点挖掘(如促销力度与库存周转率)
- 散点矩阵(交互效应探测)
业务场景:
零售业中发现“客单价”与“停留时间”呈分段相关:- 0-30分钟:正相关(浏览促进消费)
- 30分钟:负相关(过度决策导致放弃购买)
3. 高维分析:模式降维
- 主成分分析(PCA)业务解释
应用场景:
将20个用户行为指标压缩为3个主成分,定义用户分群策略
四、EDA在行业中的实战应用
案例:银行业信贷风控EDA流程
- 单变量分析
- 发现贷款金额分布右偏→ 重点监控大额贷款申请
图表
代码
barChart
title 贷款金额分布分段
xAxis 区间(万元)
yAxis 笔数
series 申请量: [120,85,63,42,15]
categories [0-5,5-10,10-20,20-50,>50]
- 多变量分析
- 年龄与违约率呈U型曲线:青年(<25)和老年(>60)风险更高
- 高维模式
- 通过聚类识别4类高危人群:高负债青年、低收入多笔借贷者等
五、EDA的DCMM衔接点
EDA阶段 | DCMM能力域 | 治理价值 |
数据质量检查 | 数据质量 | 异常值修正提升数据可信度 |
变量关联分析 | 数据架构 | 指导主题域模型设计 |
模式发现 | 数据应用 | 驱动精准营销/风控策略优化 |
关键原则总结
- 图形选择法则:
- 趋势分析 → 折线图
- 分布对比 → 直方图/密度图
- 关系探索 → 散点图/气泡图
- 业务优先准则:
- 拒绝“漂亮但无信息量”的可视化
- 每个图表必须回答一个业务问题(如:“为什么Q3退货率突增?”)
- 大模型赋能方向:
- 自动生成EDA报告框架
- 基于NLQ(自然语言查询)的动态维度下钻