描述性分析
I’m happy to help translate the article for you, but I don’t have the full text of the post. Could you please paste the content you’d like translated (excluding any code blocks or URLs you want to keep unchanged)? Once I have the text, I’ll provide a Simplified‑Chinese translation while preserving the original formatting and markdown.
基本概念
| 概念 | 定义 |
|---|---|
| 总体 | 研究中所有元素的集合。 |
| 样本 | 总体的一个子集(应能代表总体)。 |
| 个体 | 总体中的每一个单独元素。 |
| 变量 | 个体的特征。 |
示例:Titanic 数据集
- Population(总体): 2 224 名个体(所有乘客和船员)。
- Samples(样本):
train.csv:891 个代表总体的个体,用于训练机器学习模型。test.csv:418 个代表总体的个体,用于测试机器学习模型。
- Individuals(个体): 每位乘客或船员(样本或总体数据的每一行)。
- Variables(变量): 为每个个体收集的特征(数据的每一列),例如
Survived、Sex、Age等。
变量类型
1. 数值型
数据用度量的数字表示,衡量数量。
| 子类型 | 描述 | 示例 |
|---|---|---|
| 连续 | 可以取无限(或不确定)数量的值。 | Fare – 可以有最多 4 位小数的值。 |
| 离散 | 只能从列表中取可数的值。 | SibSp(船上兄弟姐妹/配偶的数量)。 |
2. 分类
数据用文本或数字表示,其意义不是度量的,而是表示类别。
| 子类型 | 描述 | 示例 |
|---|---|---|
| 名义 | 类别之间没有内在顺序。 | Embarked – 登船港口(C, Q, S)。 |
| 序数 | 类别具有自然顺序。 | Pclass – 乘客等级(1 = 头等舱,2 = 二等舱,3 = 三等舱)。 |
值得注意: 变量的类型并不总是明确的,可能取决于分析者的目标。例如,
Age可以被视为连续数值变量、离散数值变量(如果四舍五入)或序数变量(如果分为年龄段)。
数据可视化(简要概述)
在数据分析中,最有用的两种可视化形式是 直方图 和 条形图。
- 直方图 – 用于连续变量。
- 条形图 – 用于离散(分类)变量。
[Image: Bar chart]
[Image: Histogram]
这些图表帮助我们了解变量的分布情况(例如,它是对称的还是非对称的)。
描述性统计
描述性统计通过刻画数据集的集中趋势和离散程度的度量来概括数据。
集中趋势的度量
| 度量 | 公式 | 描述 |
|---|---|---|
| 总体均值 | $$\mu = \frac{1}{N}\sum_{i=1}^{N} x_i$$ | 人口(总体)中所有数值的平均( (N) = 值的总数)。 |
| 样本均值 | $$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$$ | 样本中数值的平均( (n) = 样本大小)。 |
示例(Titanic – train.csv 中的 Age)
# Pseudocode
mean_age = train['Age'].mean()
中位数
中位数是数据排序后位于中间的数值:
$$ x_{(m)} = x_{\left(\frac{n+1}{2}\right)} $$
与均值相比,它受极端值(离群值)的影响较小。
示例(Titanic – Age):
median_age = train['Age'].median()
众数
众数是数据集中出现频率最高的数值。
示例(Titanic – Age):
mode_age = train['Age'].mode()[0]
三种度量的解释
- 对称分布: 均值 ≈ 中位数 ≈ 众数。
- 正(右)偏斜: 均值 > 中位数 > 众数。
- 负(左)偏斜: 均值 < 中位数 < 众数,分布呈负偏斜(乘客年龄整体偏年轻于均值)。
Source: …
变异度量
极差
极差提供了数据值之间相距多远的概念。它通过从集合的最大值中减去最小值来计算:
[ \text{Range}= \max (i) - \min (i) ]
示例(Titanic 数据集)– Age 变量:
[ 80 - 0.42 = 79.58 \text{ years} ]
方差
方差衡量值相对于其均值的离散程度。它通过对平方残差(每个值与均值之间的差)求平均得到。
总体方差
[ \sigma^{2}= \frac{1}{N}\sum_{i=1}^{N}\bigl(x_i-\mu\bigr)^{2} ]
无偏样本方差
[ s^{2}= \frac{1}{n-1}\sum_{i=1}^{n}\bigl(x_i-\bar{x}\bigr)^{2} ]
我们对差值进行平方是因为原始差值的和会为零。
分母使用 (n-1)(而不是 (n))可以得到总体方差的 无偏 估计;使用 (n) 会倾向于低估真实方差。
示例(Titanic 数据集)– train.csv 中的 Age 变量:
[ s^{2}= 211.01 ]
标准差
标准差以与原始数据相同的单位表达离散程度。它就是方差的平方根:
[ \sigma = \sqrt{\sigma^{2}} \qquad\text{(总体)} \ s = \sqrt{s^{2}} \qquad\text{(样本)} ]
示例(Titanic 数据集)– train.csv 中的 Age 变量:
[ s = 14.52 \text{ years} ]
标准误
标准误表示样本对总体的代表程度。它通过将标准差除以样本量的平方根来计算:
[ \displaystyle SE_{\bar{x}} = \frac{s}{\sqrt{n}} ]
示例(Titanic 数据集)– train.csv 中的 Age 变量:
[ SE_{\bar{x}} = 0.54 ]
解释离散程度
这些度量(范围、方差、标准差、标准误)提供了关于分布变异性的首要线索。它们在以下情况下尤其有用:
- 比较同一变量的不同数据集。
- 将它们与集中趋势度量(均值、中位数、众数)结合,以表征变量的分布。
可视化分布
单纯的数字可以通过可视化来补充,往往能够揭示从汇总统计中不易看出的模式。你可能会遇到的典型分布形状有:
1. 对称(均值 ≈ 中位数 ≈ 众数)
数值在中心两侧均匀分布。
2. 右偏(正偏)
均值 > 中位数 > 众数 —— 大多数数值位于均值以下。
3. 左偏(负偏)
均值 < 中位数 < 众数 —— 大多数数值位于均值以上。
4. 均匀(平坦)
几乎所有数值在整个范围内相同。这可能是因为箱宽设置得过大,或变量实际上聚合了多个底层变量。调整箱宽或绘制其他类型的图表可以揭示隐藏的结构。
5. 多峰
出现两个或多个明显的峰,暗示存在多个子群体或变异来源。分别检查每个峰往往能提供有价值的信息。
6. 正态(高斯)
对称的钟形曲线。许多自然现象遵循此模式,而且它特别方便,因为大量数据落在已知的标准差倍数范围内:
- 大约 68 % 位于 ±1 σ 之间
- 大约 95 % 位于 ±2 σ 之间
- 大约 99.7 % 位于 ±3 σ 之间
当数据近似正态分布时,许多统计检验和置信区间计算都变得简便。
参考
Kaggle – Titanic: Machine Learning from Disaster
请随意根据你的数据特性调整可视化方式(直方图、密度图、箱线图等)。