기술 분석

발행: (2025년 12월 31일 오전 12:10 GMT+9)
10 min read
원문: Dev.to

Source: Dev.to

번역을 진행하려면 번역하고자 하는 본문 텍스트를 제공해 주시겠어요?
본문을 알려주시면 원본 형식과 마크다운을 그대로 유지하면서 한국어로 번역해 드리겠습니다.

Basic Concepts

ConceptDefinition
Population연구 대상이 되는 모든 요소들의 집합.
Sample모집단의 일부 요소 집합(모집단을 대표해야 함).
Individuals모집단 내의 각 개별 요소.
Variables개체들의 특성.

Example: Titanic Dataset

  • Population: 2 224명 (모든 승객 및 승무원).
  • Samples:
    • train.csv: 인구를 대표하는 891명의 개인, 머신러닝 모델 훈련에 사용.
    • test.csv: 인구를 대표하는 418명의 개인, 머신러닝 모델 테스트에 사용.
  • Individuals: 각 승객 또는 승무원(샘플 또는 전체 데이터의 각 행).
  • Variables: 각 개인에 대해 수집된 특성(데이터의 각 열), 예: Survived, Sex, Age 등.

변수 유형

1. 수치형

데이터는 측정값이거나 양을 측정하는 숫자로 표현됩니다.

하위 유형설명예시
Continuous무한대(또는 불확정) 개수의 값을 가질 수 있습니다.Fare – 값이 소수점 이하 최대 4자리까지 있을 수 있습니다.
Discrete목록에서 셀 수 있는 값만 가질 수 있습니다.SibSp (탑승한 형제/배우자 수).

2. 범주형

데이터는 의미가 측정값이 아니라 범주를 나타내는 텍스트나 숫자로 표현됩니다.

하위 유형설명예시
Nominal카테고리 간에 고유한 순서가 없습니다.Embarked – 탑승 항구 (C, Q, S).
Ordinal카테고리에는 자연스러운 순서가 있습니다.Pclass – 승객 등급 (1 = 일등석, 2 = 이등석, 3 = 삼등석).

Note of interest: 변수의 유형은 항상 명확하지 않으며 분석가의 목표에 따라 달라질 수 있습니다. 예를 들어, Age는 연속 수치형 변수, 이산 수치형 변수(반올림한 경우), 또는 순서형 변수(연령 구간으로 묶은 경우)로 취급될 수 있습니다.

데이터 시각화 (간략 개요)

데이터 분석에서 가장 유용한 시각화 중 두 가지는 히스토그램막대 차트입니다.

  • 히스토그램 – 연속 변수에 사용됩니다.
  • 막대 차트 – 이산(범주형) 변수에 사용됩니다.
[Image: Bar chart]
[Image: Histogram]

이러한 플롯은 변수의 분포(예: 대칭인지 비대칭인지)를 이해하는 데 도움이 됩니다.

Source:

기술 통계

기술 통계는 데이터 세트를 중심 경향성산포을 나타내는 측정값으로 요약합니다.

중심 경향성 측정

측정값공식설명
모집단 평균$$\mu = \frac{1}{N}\sum_{i=1}^{N} x_i$$모집단에 포함된 모든 값의 평균 ( (N)  = 값의 총 개수).
표본 평균$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$$표본의 평균 ( (n)  = 표본 크기).

예시 (Titanic – train.csvAge)

# Pseudocode
mean_age = train['Age'].mean()

중앙값

데이터를 정렬했을 때 중간에 위치하는 값은 다음과 같습니다:

$$ x_{(m)} = x_{\left(\frac{n+1}{2}\right)} $$

중앙값은 평균보다 극단값(이상치)의 영향을 덜 받습니다.

예시 (Titanic – Age):

median_age = train['Age'].median()

최빈값

최빈값은 데이터 세트에서 가장 자주 나타나는 값입니다.

예시 (Titanic – Age):

mode_age = train['Age'].mode()[0]

세 가지 측정값 해석

  • 대칭 분포: 평균 ≈ 중앙값 ≈ 최빈값.
  • 양(우)왜도 비대칭: 평균 > 중앙값 > 최빈값.
  • 음(좌)왜도 비대칭: 평균 < 중앙값 < 최빈값, 이 경우 분포는 음의 왜도를 가지며(평균 연령보다 더 어린 승객이 많음).

Source:

변동성 측정

범위 (Range)

범위는 데이터 값들이 얼마나 떨어져 있는지를 나타냅니다. 이는 집합에서 최소값을 최대값에서 빼서 계산합니다:

[ \text{Range}= \max (i) - \min (i) ]

예시 (Titanic 데이터셋) – Age 변수:

[ 80 - 0.42 = 79.58 \text{ years} ]

분산 (Variance)

분산은 값들이 평균에 대해 얼마나 퍼져 있는지를 측정합니다. 각 값과 평균의 차이를 제곱한 뒤 평균을 내어 얻습니다.

모집단 분산

[ \sigma^{2}= \frac{1}{N}\sum_{i=1}^{N}\bigl(x_i-\mu\bigr)^{2} ]

불편 추정 표본 분산

[ s^{2}= \frac{1}{n-1}\sum_{i=1}^{n}\bigl(x_i-\bar{x}\bigr)^{2} ]

차이를 제곱하는 이유는 원래 차이를 모두 더하면 0이 되기 때문입니다.
분모를 (n-1) (즉, (n) 대신) 로 두면 불편한(편향되지 않은) 모집단 분산 추정값을 얻을 수 있습니다; (n)을 사용하면 실제 분산을 과소평가하게 됩니다.

예시 (Titanic 데이터셋) – train.csvAge 변수:

[ s^{2}= 211.01 ]

표준편차 (Standard Deviation)

표준편차는 원 데이터와 같은 단위로 분산을 나타냅니다. 이는 단순히 분산의 제곱근입니다:

[ \sigma = \sqrt{\sigma^{2}} \qquad\text{(population)} \ s = \sqrt{s^{2}} \qquad\text{(sample)} ]

예시 (Titanic 데이터셋) – train.csvAge 변수:

[ s = 14.52 \text{ years} ]

표준오차 (Standard Error)

표준오차는 표본이 모집단을 얼마나 잘 대표하는지를 나타냅니다. 표준편차를 표본 크기의 제곱근으로 나누어 계산합니다:

[ \displaystyle SE_{\bar{x}} = \frac{s}{\sqrt{n}} ]

예시 (Titanic 데이터셋) – train.csvAge 변수:

[ SE_{\bar{x}} = 0.54 ]

분산 해석

These measures (range, variance, standard deviation, standard error) provide the first clues about the variability of a distribution. They are especially useful when:

  • 동일 변수에 대한 데이터 세트 비교.
  • 중심 경향 측정값(평균, 중앙값, 최빈값)과 결합하여 변수의 분포를 특성화.

분포 시각화

숫자만으로는 요약 통계에서 명확히 드러나지 않는 패턴을 시각화를 통해 보완할 수 있습니다. 흔히 마주치는 분포 형태는 다음과 같습니다:

1. 대칭 (Mean ≈ Median ≈ Mode)

값이 중심을 기준으로 고르게 퍼져 있습니다.

2. 오른쪽 왜도 (Positive Skew)

Mean > Median > Mode – 평균보다 작은 값이 더 많이 존재합니다.

3. 왼쪽 왜도 (Negative Skew)

Mean < Median < Mode – 평균보다 큰 값이 더 많이 존재합니다.

4. 균등 (Flat)

거의 모든 값이 범위 전체에 걸쳐 동일합니다. 이는 구간 폭이 너무 넓거나 변수가 실제로 여러 하위 변수를 집계하고 있을 때 발생할 수 있습니다. 구간 크기를 조정하거나 다른 유형의 차트를 그리면 숨겨진 구조를 드러낼 수 있습니다.

5. 다중 피크 (Multimodal)

두 개 이상의 뚜렷한 피크가 나타나며, 이는 여러 하위 집단이나 변동 원인이 존재함을 시사합니다. 각 피크를 별도로 조사하면 유용한 정보를 얻을 수 있습니다.

6. 정규 (Gaussian)

대칭적인 종 모양 곡선. 많은 자연 현상이 이 패턴을 따르며, 표준 편차의 알려진 배수 안에 데이터의 큰 비율이 포함된다는 점에서 특히 편리합니다:

  • ±1 σ 내에 약 68 %
  • ±2 σ 내에 약 95 %
  • ±3 σ 내에 약 99.7 %

데이터가 정규 분포에 근접하면 많은 통계 검정 및 신뢰 구간 계산이 간단해집니다.

Reference
Kaggle – Titanic: Machine Learning from Disaster

데이터의 특정 특성에 맞게 시각화(히스토그램, 밀도 플롯, 박스‑플롯 등)를 자유롭게 조정하세요.

Back to Blog

관련 글

더 보기 »