探索性数据分析 (EDA)
发布: (2025年12月25日 GMT+8 13:34)
5 分钟阅读
原文: Dev.to
Source: Dev.to
请提供您希望翻译的具体文本内容,我将按照要求保留源链接、格式和代码块,仅翻译正文部分。
什么是探索性数据分析?
探索性数据分析(EDA)是一种系统化的方法,用于分析数据集,以概括其主要特征、发现模式、检测异常、检验假设,并在应用正式的统计模型或机器学习算法之前检查数据质量。EDA 由约翰·W·图基(John W. Tukey)推广,他强调在确认之前进行探索。
关键概念
- 灵活且具调查性
- 同时使用数值方法和图形方法
- 有助于指导后续的分析和建模
EDA 的目标
- 理解数据结构
- 总结关键特征
- 检测离群值和异常
- 识别模式和趋势
- 检查假设(正态性、线性等)
- 评估数据质量
- 指导特征选择和转换
- 支持决策制定
探索性数据分析的类型
基于变量数量
(EDA 可以根据涉及的变量数量进行分类,例如单变量、双变量、多变量。)
探索性数据分析的步骤
第一步:了解数据
- 变量类型(分类的,数值的)
- 单位和尺度
- 数据来源
- 数据集规模
第二步:数据清洗
- 删除重复项
- 修正不一致的数据
- 检测无效条目
注意: EDA 通常会发现真实世界的数据是混乱的。
第三步:单变量分析
数值方法
- 方差,标准差
- 极差,IQR
- 偏度,峰度
- 百分位数,Z‑分数
图形方法
- 箱线图
- 条形图
第四步:双变量分析
数值方法
- 协方差
- 交叉表
图形方法
- 折线图
- 分组条形图
第五步:多变量分析
- 成对图
- 主成分分析(PCA)
- 热力图
EDA的关键组成部分
集中趋势度量
- 均值
- 中位数
- 众数
离散程度度量
- 极差
- 方差
- 标准差
- 四分位距
位置度量
- 百分位数
- 四分位数
- 十分位数
- Z分数
分布形状
- 偏度(对称性)
- 峰度(峰值)
异常值检测(EDA)
常用方法
- IQR 方法
- Z‑score 方法
- 可视化检查(箱线图)
异常值可能表明:
- 数据录入错误
- 稀有事件
- 重要洞察
用于EDA的图形工具
| 工具 | 用途 |
|---|---|
| 直方图 | 分布 |
| 箱线图 | 离散程度与异常值 |
| 散点图 | 关系 |
| 条形图 | 类别数据 |
| 折线图 | 随时间的趋势 |
| 热力图 | 相关性强度 |
EDA的重要性
- 防止建模错误
- 提高数据质量
- 揭示隐藏的洞察
- 指导特征工程
- 节省时间和资源
没有EDA,结论可能会产生误导。
数据科学与机器学习中的EDA
EDA 有助于:
- 特征选择
- 数据转换
- 处理偏斜
- 检测多重共线性
- 理解目标变量行为
EDA的优势
- 灵活且直观
- 假设最少
- 适用于小型和大型数据集
- 有助于向利益相关者解释数据
EDA 的局限性
- 主观解释
- 无法证明因果关系
- 对大型数据集耗时
- 结果取决于分析师经验
实际案例
数据集: 客户购买数据
EDA 可能会揭示:
- 大多数客户在周末购买
- 销售呈右偏分布
- 少数客户贡献了大部分收入
- 折扣与销售量之间存在强相关性
EDA 与 确认性数据分析
| 方面 | EDA(探索性) | 确认性分析 |
|---|---|---|
| 目标 | 探索 | 假设检验 |
| 方法 | 灵活 | 结构化 |
| 关注点 | 模式发现 | 模型验证 |
| 假设 | 最小/无 | 强假设 |
摘要
探索性数据分析是所有数据分析的基础。它帮助分析师理解、清洗、汇总和解释数据,从而实现更好的建模和准确的决策。
“EDA 让数据在我们强加理论之前先发声。”