Python NumPy 기본
발행: (2026년 4월 21일 PM 04:43 GMT+9)
3 분 소요
원문: Dev.to
Source: Dev.to
소개
NumPy는 데이터 분석 및 AI 분야에서 필수적인 도구입니다. 다양한 기본 통계 함수를 제공하여 다음과 같은 여러 지표를 손쉽게 계산할 수 있습니다:
- 최소값 및 최대값
- 평균
- 최빈값
- 중앙값
- 사분위수
- 사분위 범위(IQR)
- 표준편차
- 상대 표준편차
- 이상치 제거
- 상관관계
- 공분산
최빈값, 중앙값 및 상관관계에 대해 더 알고 싶다면 다음 글을 참고하세요:
설치
라이브러리를 설치하려면 명령 프롬프트(Windows) 또는 터미널(Linux)을 열고 다음 명령을 실행하세요:
pip install numpy
pip install scipy
기본 통계 연산
import numpy as np
from scipy import stats
# numpy array 생성
x = np.array([1, 2, 3, 4, 7, 7, 7, 9, 13, 15])
# 최소값 및 최대값
minimum = np.min(x)
maximum = np.max(x)
# 최빈값, 중앙값 및 평균
mode = stats.mode(x).mode[0]
median = np.median(x)
mean = np.mean(x)
# 사분위수
q1 = np.percentile(x, 25) # 25번째 백분위수
q3 = np.percentile(x, 75) # 75번째 백분위수
# 사분위 범위
iqr = q3 - q1
# 모집단 표준편차
std = np.std(x)
# 표본 표준편차 (ddof=1)
std_sample = np.std(x, ddof=1)
# 상대 표준편차
rstd = std / mean
이상치 제거
이상치 필터링은 간단한 벡터 기반 마스크링으로 수행됩니다.
import numpy as np
x = np.array([1, 60, 65, 70, 75, 80, 85, 400])
q1 = np.percentile(x, 25)
q3 = np.percentile(x, 75)
iqr = q3 - q1
lower = q1 - 1.5 * iqr
upper = q3 + 1.5 * iqr
no_outliers = x[(x > lower) & (x
참고: 행렬의 인덱스는 0부터 시작하므로 [0, 1] 요소는 두 변수 간의 관계를 반환합니다. 자기 자신과의 공분산은 분산(표준편차의 제곱)과 동일합니다.