기술 분석
Source: Dev.to
번역을 진행하려면 번역하고자 하는 본문 텍스트를 제공해 주시겠어요?
본문을 알려주시면 원본 형식과 마크다운을 그대로 유지하면서 한국어로 번역해 드리겠습니다.
Basic Concepts
| Concept | Definition |
|---|---|
| Population | 연구 대상이 되는 모든 요소들의 집합. |
| Sample | 모집단의 일부 요소 집합(모집단을 대표해야 함). |
| Individuals | 모집단 내의 각 개별 요소. |
| Variables | 개체들의 특성. |
Example: Titanic Dataset
- Population: 2 224명 (모든 승객 및 승무원).
- Samples:
train.csv: 인구를 대표하는 891명의 개인, 머신러닝 모델 훈련에 사용.test.csv: 인구를 대표하는 418명의 개인, 머신러닝 모델 테스트에 사용.
- Individuals: 각 승객 또는 승무원(샘플 또는 전체 데이터의 각 행).
- Variables: 각 개인에 대해 수집된 특성(데이터의 각 열), 예:
Survived,Sex,Age등.
변수 유형
1. 수치형
데이터는 측정값이거나 양을 측정하는 숫자로 표현됩니다.
| 하위 유형 | 설명 | 예시 |
|---|---|---|
| Continuous | 무한대(또는 불확정) 개수의 값을 가질 수 있습니다. | Fare – 값이 소수점 이하 최대 4자리까지 있을 수 있습니다. |
| Discrete | 목록에서 셀 수 있는 값만 가질 수 있습니다. | SibSp (탑승한 형제/배우자 수). |
2. 범주형
데이터는 의미가 측정값이 아니라 범주를 나타내는 텍스트나 숫자로 표현됩니다.
| 하위 유형 | 설명 | 예시 |
|---|---|---|
| Nominal | 카테고리 간에 고유한 순서가 없습니다. | Embarked – 탑승 항구 (C, Q, S). |
| Ordinal | 카테고리에는 자연스러운 순서가 있습니다. | Pclass – 승객 등급 (1 = 일등석, 2 = 이등석, 3 = 삼등석). |
Note of interest: 변수의 유형은 항상 명확하지 않으며 분석가의 목표에 따라 달라질 수 있습니다. 예를 들어,
Age는 연속 수치형 변수, 이산 수치형 변수(반올림한 경우), 또는 순서형 변수(연령 구간으로 묶은 경우)로 취급될 수 있습니다.
데이터 시각화 (간략 개요)
데이터 분석에서 가장 유용한 시각화 중 두 가지는 히스토그램과 막대 차트입니다.
- 히스토그램 – 연속 변수에 사용됩니다.
- 막대 차트 – 이산(범주형) 변수에 사용됩니다.
[Image: Bar chart]
[Image: Histogram]
이러한 플롯은 변수의 분포(예: 대칭인지 비대칭인지)를 이해하는 데 도움이 됩니다.
Source: …
기술 통계
기술 통계는 데이터 세트를 중심 경향성과 산포을 나타내는 측정값으로 요약합니다.
중심 경향성 측정
| 측정값 | 공식 | 설명 |
|---|---|---|
| 모집단 평균 | $$\mu = \frac{1}{N}\sum_{i=1}^{N} x_i$$ | 모집단에 포함된 모든 값의 평균 ( (N) = 값의 총 개수). |
| 표본 평균 | $$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$$ | 표본의 평균 ( (n) = 표본 크기). |
예시 (Titanic – train.csv의 Age)
# Pseudocode
mean_age = train['Age'].mean()
중앙값
데이터를 정렬했을 때 중간에 위치하는 값은 다음과 같습니다:
$$ x_{(m)} = x_{\left(\frac{n+1}{2}\right)} $$
중앙값은 평균보다 극단값(이상치)의 영향을 덜 받습니다.
예시 (Titanic – Age):
median_age = train['Age'].median()
최빈값
최빈값은 데이터 세트에서 가장 자주 나타나는 값입니다.
예시 (Titanic – Age):
mode_age = train['Age'].mode()[0]
세 가지 측정값 해석
- 대칭 분포: 평균 ≈ 중앙값 ≈ 최빈값.
- 양(우)왜도 비대칭: 평균 > 중앙값 > 최빈값.
- 음(좌)왜도 비대칭: 평균 < 중앙값 < 최빈값, 이 경우 분포는 음의 왜도를 가지며(평균 연령보다 더 어린 승객이 많음).
Source: …
변동성 측정
범위 (Range)
범위는 데이터 값들이 얼마나 떨어져 있는지를 나타냅니다. 이는 집합에서 최소값을 최대값에서 빼서 계산합니다:
[ \text{Range}= \max (i) - \min (i) ]
예시 (Titanic 데이터셋) – Age 변수:
[ 80 - 0.42 = 79.58 \text{ years} ]
분산 (Variance)
분산은 값들이 평균에 대해 얼마나 퍼져 있는지를 측정합니다. 각 값과 평균의 차이를 제곱한 뒤 평균을 내어 얻습니다.
모집단 분산
[ \sigma^{2}= \frac{1}{N}\sum_{i=1}^{N}\bigl(x_i-\mu\bigr)^{2} ]
불편 추정 표본 분산
[ s^{2}= \frac{1}{n-1}\sum_{i=1}^{n}\bigl(x_i-\bar{x}\bigr)^{2} ]
차이를 제곱하는 이유는 원래 차이를 모두 더하면 0이 되기 때문입니다.
분모를 (n-1) (즉, (n) 대신) 로 두면 불편한(편향되지 않은) 모집단 분산 추정값을 얻을 수 있습니다; (n)을 사용하면 실제 분산을 과소평가하게 됩니다.
예시 (Titanic 데이터셋) – train.csv의 Age 변수:
[ s^{2}= 211.01 ]
표준편차 (Standard Deviation)
표준편차는 원 데이터와 같은 단위로 분산을 나타냅니다. 이는 단순히 분산의 제곱근입니다:
[ \sigma = \sqrt{\sigma^{2}} \qquad\text{(population)} \ s = \sqrt{s^{2}} \qquad\text{(sample)} ]
예시 (Titanic 데이터셋) – train.csv의 Age 변수:
[ s = 14.52 \text{ years} ]
표준오차 (Standard Error)
표준오차는 표본이 모집단을 얼마나 잘 대표하는지를 나타냅니다. 표준편차를 표본 크기의 제곱근으로 나누어 계산합니다:
[ \displaystyle SE_{\bar{x}} = \frac{s}{\sqrt{n}} ]
예시 (Titanic 데이터셋) – train.csv의 Age 변수:
[ SE_{\bar{x}} = 0.54 ]
분산 해석
These measures (range, variance, standard deviation, standard error) provide the first clues about the variability of a distribution. They are especially useful when:
- 동일 변수에 대한 데이터 세트 비교.
- 중심 경향 측정값(평균, 중앙값, 최빈값)과 결합하여 변수의 분포를 특성화.
분포 시각화
숫자만으로는 요약 통계에서 명확히 드러나지 않는 패턴을 시각화를 통해 보완할 수 있습니다. 흔히 마주치는 분포 형태는 다음과 같습니다:
1. 대칭 (Mean ≈ Median ≈ Mode)
값이 중심을 기준으로 고르게 퍼져 있습니다.
2. 오른쪽 왜도 (Positive Skew)
Mean > Median > Mode – 평균보다 작은 값이 더 많이 존재합니다.
3. 왼쪽 왜도 (Negative Skew)
Mean < Median < Mode – 평균보다 큰 값이 더 많이 존재합니다.
4. 균등 (Flat)
거의 모든 값이 범위 전체에 걸쳐 동일합니다. 이는 구간 폭이 너무 넓거나 변수가 실제로 여러 하위 변수를 집계하고 있을 때 발생할 수 있습니다. 구간 크기를 조정하거나 다른 유형의 차트를 그리면 숨겨진 구조를 드러낼 수 있습니다.
5. 다중 피크 (Multimodal)
두 개 이상의 뚜렷한 피크가 나타나며, 이는 여러 하위 집단이나 변동 원인이 존재함을 시사합니다. 각 피크를 별도로 조사하면 유용한 정보를 얻을 수 있습니다.
6. 정규 (Gaussian)
대칭적인 종 모양 곡선. 많은 자연 현상이 이 패턴을 따르며, 표준 편차의 알려진 배수 안에 데이터의 큰 비율이 포함된다는 점에서 특히 편리합니다:
- ±1 σ 내에 약 68 %
- ±2 σ 내에 약 95 %
- ±3 σ 내에 약 99.7 %
데이터가 정규 분포에 근접하면 많은 통계 검정 및 신뢰 구간 계산이 간단해집니다.
Reference
Kaggle – Titanic: Machine Learning from Disaster
데이터의 특정 특성에 맞게 시각화(히스토그램, 밀도 플롯, 박스‑플롯 등)를 자유롭게 조정하세요.