왜 Accuracy는 거짓말을 하는가 — 실제로 중요한 Metrics (Part 4)

발행: (2025년 12월 3일 오후 12:18 GMT+9)
7 min read
원문: Dev.to

Source: Dev.to

Cover image for Why Accuracy Lies — The Metrics That Actually Matter (Part 4)

정확도는 머신러닝에서 가장 널리 사용되는 메트릭입니다.
하지만 가장 오해를 불러일으키는 메트릭이기도 합니다. 실제 운영 ML 시스템에서는 정확도가 나쁜 모델을 좋게 보이게 만들고, 실패를 숨기며, 비즈니스 결정을 왜곡하고, 심지어 재앙적인 하위 영향을 일으키기 전까지 성공이라는 착각을 만들 수 있습니다.

정확도는 허영 메트릭입니다. 실제 ML 성능에 대해 거의 아무것도 알려주지 않습니다.

정확도의 함정

정확도 공식

Accuracy = Correct predictions / Total predictions

정확도가 무너지는 경우

  • 클래스가 불균형일 때
  • 희귀 이벤트가 더 중요할 때
  • 실수 비용이 다를 때
  • 분포가 변할 때
  • 신뢰도가 중요할 때

대부분의 실제 ML 사용 사례는 이 중 하나 이상에 해당합니다.

전형적인 예시: 사기 탐지

  • 데이터셋: 정상 거래 10,000건, 사기 12건
  • 모델: 모든 거래를 “정상”으로 예측
Accuracy = 99.88%

모델이 0건의 사기를 잡음 → 쓸모없음. 정확도가 실패를 숨깁니다.

정확도가 실패하는 이유

문제정확도가 쓸모없는 이유
클래스 불균형다수 클래스가 지배함
희귀 이벤트정확도가 소수 클래스를 무시함
비용 민감 예측잘못된 예측에 서로 다른 벌칙이 존재함
실제 데이터 변동정확도는 동일하게 유지되지만 실패는 증가함
비즈니스 KPI정확도는 재무적 영향을 측정하지 않음

정확도 ≠ 비즈니스 가치.

실제로 중요한 메트릭

1. 정밀도 (Precision)

정의: 예측한 양성 중 실제로 맞은 비율

사용 상황: 거짓 양성이 비용이 클 때 (예: 스팸 탐지, 사기 알림)

공식

Precision = TP / (TP + FP)

2. 재현율 (Recall)

정의: 실제 양성 중 모델이 찾아낸 비율

사용 상황: 거짓 음성이 비용이 클 때 (예: 암 진단, 침입 탐지)

공식

Recall = TP / (TP + FN)

3. F1 점수

정의: 정밀도와 재현율의 조화 평균

사용 상황: 정밀도와 재현율 사이의 균형이 필요할 때

공식

F1 = 2 * (Precision * Recall) / (Precision + Recall)

4. ROC‑AUC

클래스를 구분하는 모델의 능력을 측정합니다. 신용 평가와 위험 순위 매기기에 흔히 사용됩니다. AUC가 높을수록 구분이 잘 됨.

5. PR‑AUC

불균형 데이터셋에서 ROC‑AUC보다 더 유용합니다. 사기, 희귀 결함, 이상 탐지에 사용됩니다.

6. 로그 손실 (Log Loss, Cross Entropy)

예측 확률의 정확성을 평가합니다. 신뢰도가 중요하고 확률이 의사결정에 활용될 때 필수적입니다.

7. 비용 기반 메트릭

정확도는 비용을 무시하지만 실제 ML은 그렇지 않습니다.

예시

  • 거짓 음성 비용 = ₹5,000
  • 거짓 양성 비용 = ₹50

공식

Total Cost = (FN * Cost_FN) + (FP * Cost_FP)

기업들은 이러한 비용 기반 계산을 통해 실제 모델 영향을 측정합니다.

올바른 메트릭 선택법 — 실용 치트 시트

사용 사례최적 메트릭
사기 탐지Recall, F1, PR‑AUC
의료 진단Recall
스팸 탐지Precision
이탈 예측F1, Recall
신용 평가ROC‑AUC, KS
제품 순위 매기기MAP@k, NDCG
NLP 분류F1
시계열 예측RMSE, MAPE

실제 교훈

정확도는 초보자를 위한 메트릭입니다. 실제 ML 엔지니어는 비즈니스 가치를 반영하는 메트릭을 선택합니다.

정확도가 높아도 다음과 같은 상황이 발생할 수 있습니다.

  • 이익 감소
  • 위험 증가
  • 사용자 이탈
  • 사기 탐지 회피
  • 신뢰 붕괴

메트릭은 다음에 맞춰야 합니다.

  • 도메인
  • 실수 비용
  • 실제 분포

핵심 정리

통찰의미
정확도는 오해를 불러일으킴단독으로 사용하지 말 것
사용 사례별 메트릭 선택보편적인 메트릭은 없음
정밀도/재현율이 더 중요특히 불균형 상황에서
ROC‑AUC & PR‑AUC는 깊은 통찰 제공순위 매기기와 희귀 이벤트에 유용
메트릭을 비즈니스와 연결ML은 영향에 관한 것이지 단순 수학이 아니다

다음 편 — Part 5

과적합 & 과소적합 — 교과서 정의를 넘어
실제 증상, 실제 디버깅, 실제 엔지니어링 해결책.

Back to Blog

관련 글

더 보기 »