探索性数据分析 (EDA)

发布: (2025年12月25日 GMT+8 13:34)
5 分钟阅读
原文: Dev.to

Source: Dev.to

请提供您希望翻译的具体文本内容,我将按照要求保留源链接、格式和代码块,仅翻译正文部分。

什么是探索性数据分析?

探索性数据分析(EDA)是一种系统化的方法,用于分析数据集,以概括其主要特征、发现模式、检测异常、检验假设,并在应用正式的统计模型或机器学习算法之前检查数据质量。EDA 由约翰·W·图基(John W. Tukey)推广,他强调在确认之前进行探索。

关键概念

  • 灵活且具调查性
  • 同时使用数值方法和图形方法
  • 有助于指导后续的分析和建模

EDA 的目标

  • 理解数据结构
  • 总结关键特征
  • 检测离群值和异常
  • 识别模式和趋势
  • 检查假设(正态性、线性等)
  • 评估数据质量
  • 指导特征选择和转换
  • 支持决策制定

探索性数据分析的类型

基于变量数量

(EDA 可以根据涉及的变量数量进行分类,例如单变量、双变量、多变量。)

探索性数据分析的步骤

第一步:了解数据

  • 变量类型(分类的,数值的)
  • 单位和尺度
  • 数据来源
  • 数据集规模

第二步:数据清洗

  • 删除重复项
  • 修正不一致的数据
  • 检测无效条目

注意: EDA 通常会发现真实世界的数据是混乱的。

第三步:单变量分析

数值方法

  • 方差,标准差
  • 极差,IQR
  • 偏度,峰度
  • 百分位数,Z‑分数

图形方法

  • 箱线图
  • 条形图

第四步:双变量分析

数值方法

  • 协方差
  • 交叉表

图形方法

  • 折线图
  • 分组条形图

第五步:多变量分析

  • 成对图
  • 主成分分析(PCA)
  • 热力图

EDA的关键组成部分

集中趋势度量

  • 均值
  • 中位数
  • 众数

离散程度度量

  • 极差
  • 方差
  • 标准差
  • 四分位距

位置度量

  • 百分位数
  • 四分位数
  • 十分位数
  • Z分数

分布形状

  • 偏度(对称性)
  • 峰度(峰值)

异常值检测(EDA)

常用方法

  • IQR 方法
  • Z‑score 方法
  • 可视化检查(箱线图)

异常值可能表明:

  • 数据录入错误
  • 稀有事件
  • 重要洞察

用于EDA的图形工具

工具用途
直方图分布
箱线图离散程度与异常值
散点图关系
条形图类别数据
折线图随时间的趋势
热力图相关性强度

EDA的重要性

  • 防止建模错误
  • 提高数据质量
  • 揭示隐藏的洞察
  • 指导特征工程
  • 节省时间和资源

没有EDA,结论可能会产生误导。

数据科学与机器学习中的EDA

EDA 有助于:

  • 特征选择
  • 数据转换
  • 处理偏斜
  • 检测多重共线性
  • 理解目标变量行为

EDA的优势

  • 灵活且直观
  • 假设最少
  • 适用于小型和大型数据集
  • 有助于向利益相关者解释数据

EDA 的局限性

  • 主观解释
  • 无法证明因果关系
  • 对大型数据集耗时
  • 结果取决于分析师经验

实际案例

数据集: 客户购买数据

EDA 可能会揭示:

  • 大多数客户在周末购买
  • 销售呈右偏分布
  • 少数客户贡献了大部分收入
  • 折扣与销售量之间存在强相关性

EDA 与 确认性数据分析

方面EDA(探索性)确认性分析
目标探索假设检验
方法灵活结构化
关注点模式发现模型验证
假设最小/无强假设

摘要

探索性数据分析是所有数据分析的基础。它帮助分析师理解、清洗、汇总和解释数据,从而实现更好的建模和准确的决策。

“EDA 让数据在我们强加理论之前先发声。”

Back to Blog

相关文章

阅读更多 »