描述性分析

发布: (2025年12月30日 GMT+8 23:10)
8 min read
原文: Dev.to

I’m happy to help translate the article for you, but I don’t have the full text of the post. Could you please paste the content you’d like translated (excluding any code blocks or URLs you want to keep unchanged)? Once I have the text, I’ll provide a Simplified‑Chinese translation while preserving the original formatting and markdown.

基本概念

概念定义
总体研究中所有元素的集合。
样本总体的一个子集(应能代表总体)。
个体总体中的每一个单独元素。
变量个体的特征。

示例:Titanic 数据集

  • Population(总体): 2 224 名个体(所有乘客和船员)。
  • Samples(样本):
    • train.csv:891 个代表总体的个体,用于训练机器学习模型。
    • test.csv:418 个代表总体的个体,用于测试机器学习模型。
  • Individuals(个体): 每位乘客或船员(样本或总体数据的每一行)。
  • Variables(变量): 为每个个体收集的特征(数据的每一列),例如 SurvivedSexAge 等。

变量类型

1. 数值型

数据用度量的数字表示,衡量数量。

子类型描述示例
连续可以取无限(或不确定)数量的值。Fare – 可以有最多 4 位小数的值。
离散只能从列表中取可数的值。SibSp(船上兄弟姐妹/配偶的数量)。

2. 分类

数据用文本或数字表示,其意义不是度量的,而是表示类别。

子类型描述示例
名义类别之间没有内在顺序。Embarked – 登船港口(C, Q, S)。
序数类别具有自然顺序。Pclass – 乘客等级(1 = 头等舱,2 = 二等舱,3 = 三等舱)。

值得注意: 变量的类型并不总是明确的,可能取决于分析者的目标。例如,Age 可以被视为连续数值变量、离散数值变量(如果四舍五入)或序数变量(如果分为年龄段)。

数据可视化(简要概述)

在数据分析中,最有用的两种可视化形式是 直方图条形图

  • 直方图 – 用于连续变量。
  • 条形图 – 用于离散(分类)变量。
[Image: Bar chart]
[Image: Histogram]

这些图表帮助我们了解变量的分布情况(例如,它是对称的还是非对称的)。

描述性统计

描述性统计通过刻画数据集的集中趋势离散程度的度量来概括数据。

集中趋势的度量

度量公式描述
总体均值$$\mu = \frac{1}{N}\sum_{i=1}^{N} x_i$$人口(总体)中所有数值的平均( (N)  = 值的总数)。
样本均值$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$$样本中数值的平均( (n)  = 样本大小)。

示例(Titanic – train.csv 中的 Age

# Pseudocode
mean_age = train['Age'].mean()

中位数

中位数是数据排序后位于中间的数值:

$$ x_{(m)} = x_{\left(\frac{n+1}{2}\right)} $$

与均值相比,它受极端值(离群值)的影响较小。

示例(Titanic – Age):

median_age = train['Age'].median()

众数

众数是数据集中出现频率最高的数值。

示例(Titanic – Age):

mode_age = train['Age'].mode()[0]

三种度量的解释

  • 对称分布: 均值 ≈ 中位数 ≈ 众数。
  • 正(右)偏斜: 均值 > 中位数 > 众数。
  • 负(左)偏斜: 均值 < 中位数 < 众数,分布呈负偏斜(乘客年龄整体偏年轻于均值)。

Source:

变异度量

极差

极差提供了数据值之间相距多远的概念。它通过从集合的最大值中减去最小值来计算:

[ \text{Range}= \max (i) - \min (i) ]

示例(Titanic 数据集)– Age 变量:

[ 80 - 0.42 = 79.58 \text{ years} ]

方差

方差衡量值相对于其均值的离散程度。它通过对平方残差(每个值与均值之间的差)求平均得到。

总体方差

[ \sigma^{2}= \frac{1}{N}\sum_{i=1}^{N}\bigl(x_i-\mu\bigr)^{2} ]

无偏样本方差

[ s^{2}= \frac{1}{n-1}\sum_{i=1}^{n}\bigl(x_i-\bar{x}\bigr)^{2} ]

我们对差值进行平方是因为原始差值的和会为零。
分母使用 (n-1)(而不是 (n))可以得到总体方差的 无偏 估计;使用 (n) 会倾向于低估真实方差。

示例(Titanic 数据集)– train.csv 中的 Age 变量:

[ s^{2}= 211.01 ]

标准差

标准差以与原始数据相同的单位表达离散程度。它就是方差的平方根:

[ \sigma = \sqrt{\sigma^{2}} \qquad\text{(总体)} \ s = \sqrt{s^{2}} \qquad\text{(样本)} ]

示例(Titanic 数据集)– train.csv 中的 Age 变量:

[ s = 14.52 \text{ years} ]

标准误

标准误表示样本对总体的代表程度。它通过将标准差除以样本量的平方根来计算:

[ \displaystyle SE_{\bar{x}} = \frac{s}{\sqrt{n}} ]

示例(Titanic 数据集)– train.csv 中的 Age 变量:

[ SE_{\bar{x}} = 0.54 ]

解释离散程度

这些度量(范围、方差、标准差、标准误)提供了关于分布变异性的首要线索。它们在以下情况下尤其有用:

  • 比较同一变量的不同数据集。
  • 将它们与集中趋势度量(均值、中位数、众数)结合,以表征变量的分布。

可视化分布

单纯的数字可以通过可视化来补充,往往能够揭示从汇总统计中不易看出的模式。你可能会遇到的典型分布形状有:

1. 对称(均值 ≈ 中位数 ≈ 众数)

数值在中心两侧均匀分布。

2. 右偏(正偏)

均值 > 中位数 > 众数 —— 大多数数值位于均值以下。

3. 左偏(负偏)

均值 < 中位数 < 众数 —— 大多数数值位于均值以上。

4. 均匀(平坦)

几乎所有数值在整个范围内相同。这可能是因为箱宽设置得过大,或变量实际上聚合了多个底层变量。调整箱宽或绘制其他类型的图表可以揭示隐藏的结构。

5. 多峰

出现两个或多个明显的峰,暗示存在多个子群体或变异来源。分别检查每个峰往往能提供有价值的信息。

6. 正态(高斯)

对称的钟形曲线。许多自然现象遵循此模式,而且它特别方便,因为大量数据落在已知的标准差倍数范围内:

  • 大约 68 % 位于 ±1 σ 之间
  • 大约 95 % 位于 ±2 σ 之间
  • 大约 99.7 % 位于 ±3 σ 之间

当数据近似正态分布时,许多统计检验和置信区间计算都变得简便。

参考
Kaggle – Titanic: Machine Learning from Disaster

请随意根据你的数据特性调整可视化方式(直方图、密度图、箱线图等)。

Back to Blog

相关文章

阅读更多 »