Python NumPy 基础
发布: (2026年4月21日 GMT+8 15:43)
3 分钟阅读
原文: Dev.to
Source: Dev.to
引言
NumPy 是数据分析和人工智能领域不可或缺的工具。它包含许多基本统计函数,能够轻松计算各种指标,例如:
- 最小值和最大值
- 平均值
- 众数
- 中位数
- 四分位数
- 四分位距
- 标准差
- 相对标准差
- 异常值过滤
- 相关性
- 协方差
如果想进一步了解众数、中位数和相关性的概念,请阅读以下文章:
安装
要安装库,请打开命令行(Windows)或终端(Linux),并运行以下命令:
pip install numpy
pip install scipy
基本统计操作
import numpy as np
from scipy import stats
# numpy array 创建
x = np.array([1, 2, 3, 4, 7, 7, 7, 9, 13, 15])
# 最小值和最大值
minimum = np.min(x)
maximum = np.max(x)
# 众数、中位数和平均值
mode = stats.mode(x).mode[0]
median = np.median(x)
mean = np.mean(x)
# 四分位数
q1 = np.percentile(x, 25) # 第25百分位
q3 = np.percentile(x, 75) # 第75百分位
# 四分位距
iqr = q3 - q1
# 总体标准差
std = np.std(x)
# 样本标准差 (ddof=1)
std_sample = np.std(x, ddof=1)
# 相对标准差
rstd = std / mean
异常值过滤
异常值的过滤可以通过简单的向量化掩码实现。
import numpy as np
x = np.array([1, 60, 65, 70, 75, 80, 85, 400])
q1 = np.percentile(x, 25)
q3 = np.percentile(x, 75)
iqr = q3 - q1
lower = q1 - 1.5 * iqr
upper = q3 + 1.5 * iqr
no_outliers = x[(x > lower) & (x
备注: 矩阵的索引从 0 开始,因此 [0, 1] 元素返回的是两个变量之间的关系。自身的协方差等于方差(即标准差的平方)。