탐색적 데이터 분석 (EDA)
Source: Dev.to
죄송합니다, 번역할 텍스트가 제공되지 않았습니다. 번역을 원하는 본문을 알려주시면 한국어로 번역해 드리겠습니다.
탐색적 데이터 분석이란?
Exploratory Data Analysis (EDA)는 데이터 세트를 체계적으로 분석하여 주요 특성을 요약하고, 패턴을 발견하며, 이상치를 감지하고, 가정을 테스트하고, 정식 통계 모델이나 머신러닝 알고리즘을 적용하기 전에 데이터 품질을 확인하는 접근 방식입니다. EDA는 John W. Tukey에 의해 대중화되었으며, 그는 확인에 앞서 탐색을 강조했습니다.
핵심 아이디어
- 유연하고 탐구적인 접근
- 수치적 방법과 그래픽 방법을 모두 활용
- 추가 분석 및 모델링 방향을 제시
EDA의 목표
- 데이터 구조 이해
- 주요 특성 요약
- 이상치 및 변칙 감지
- 패턴 및 추세 식별
- 가정 검증 (정규성, 선형성 등)
- 데이터 품질 평가
- 특성 선택 및 변환 안내
- 의사결정 지원
탐색적 데이터 분석 유형
변수 수에 따른 분류
(EDA는 포함된 변수 수에 따라 단변량, 이변량, 다변량 등으로 분류될 수 있습니다.)
탐색적 데이터 분석 단계
1단계: 데이터 이해
- 변수 유형 (범주형, 수치형)
- 단위 및 스케일
- 데이터 출처
- 데이터셋 규모
2단계: 데이터 정제
- 중복 제거
- 일관성 없는 데이터 수정
- 잘못된 항목 탐지
Note: EDA는 실제 데이터가 종종 지저분하다는 것을 드러냅니다.
3단계: 일변량 분석
수치적 방법
- 분산, 표준편차
- 범위, IQR
- 왜도, 첨도
- 백분위수, Z‑점수
그래픽 방법
- 박스 플롯
- 막대 차트
4단계: 이변량 분석
수치적 방법
- 공분산
- 교차표
그래픽 방법
- 선 그래프
- 그룹화된 막대 차트
5단계: 다변량 분석
- 페어 플롯
- 주성분 분석 (PCA)
- 히트맵
EDA의 핵심 구성 요소
중심 경향 측도
- 평균
- 중앙값
- 최빈값
산포 측도
- 범위
- 분산
- 표준편차
- IQR
위치 측도
- 백분위수
- 사분위수
- 십분위수
- Z‑점수
분포 형태
- 왜도 (대칭성)
- 첨도 (뾰족함)
EDA에서 이상치 탐지
일반적인 방법
- IQR 방법
- Z‑점수 방법
- 시각적 검사 (박스 플롯)
이상치는 다음을 나타낼 수 있습니다:
- 데이터 입력 오류
- 드문 사건
- 중요한 인사이트
EDA에 사용되는 그래픽 도구
| 도구 | 목적 |
|---|---|
| 히스토그램 | 분포 |
| 박스 플롯 | 퍼짐 및 이상치 |
| 산점도 | 관계 |
| 막대 차트 | 범주형 데이터 |
| 선 그래프 | 시간에 따른 추세 |
| 히트맵 | 상관 관계 강도 |
EDA의 중요성
- 잘못된 모델링 방지
- 데이터 품질 향상
- 숨겨진 인사이트 발견
- 특성 엔지니어링 안내
- 시간과 자원 절약
EDA 없이 결론이 오해를 불러일으킬 수 있습니다.
데이터 과학 및 머신러닝에서의 EDA
EDA는 다음에 도움이 됩니다:
- 특성 선택
- 데이터 변환
- 왜도 처리
- 다중공선성 감지
- 목표 변수 행동 이해
Advantages of EDA
- 유연하고 직관적
- 최소한의 가정
- 작은 데이터셋과 큰 데이터셋 모두에 적용 가능
- 이해관계자에게 데이터를 설명하는 데 도움
Limitations of EDA
- 주관적 해석
- 인과관계를 증명할 수 없음
- 대규모 데이터셋에 대해 시간 소모가 큼
- 결과는 분석가의 경험에 따라 달라짐
실제 사례
데이터셋: 고객 구매 데이터
EDA는 다음을 밝혀낼 수 있습니다:
- 대부분의 고객이 주말에 구매합니다.
- 매출이 오른쪽으로 치우쳐 있습니다.
- 소수의 고객이 대부분의 매출을 차지합니다.
- 할인과 판매량 사이에 강한 상관관계가 있습니다.
| Aspect | EDA (Exploratory) | Confirmatory Analysis |
|---|---|---|
| 목표 | 탐색 | 가설 검정 |
| 접근 방식 | 유연함 | 구조화됨 |
| 초점 | 패턴 발견 | 모델 검증 |
| 가정 | 최소/없음 | 강한 가정 |
요약
탐색적 데이터 분석(EDA)은 모든 데이터 분석의 기반입니다. 이는 분석가가 데이터를 이해하고, 정리하며, 요약하고, 해석하도록 도와주어 더 나은 모델링과 정확한 의사결정을 가능하게 합니다.
“EDA는 우리가 이론을 강요하기 전에 데이터가 말하도록 합니다.”