‘멍청한’ Mean Imputation에 대한 충격적인 진실
Source: Dev.to
대부분의 데이터 팀은 화려한 대체(imputation) 모델에 집착합니다.
그들은 여러분이 실제로 신경 써야 할 신뢰할 수 있는 신호를 조용히 파괴합니다.
숨겨진 함정
아름다운 3D 퍼즐을 상상해 보세요.
그걸 부숴 버립니다.
그리고 모든 빈틈을 베이지색 레고 블록으로 메웁니다.
이것이 평균 대체(mean imputation)입니다. 데이터는 완전해 보이지만, 중요한 구조는 사라집니다.
대체 방법 테스트
실제 데이터셋에 적용해 보았습니다.
평균 및 중앙값 대체가 예측 정확도 면에서 KNN과 MICE보다 실제로 더 좋았습니다.
문서상으로는 “작동”했지만, 내부적으로는 특성 간 상관관계를 망가뜨렸습니다.
- 모델은 개선되었습니다.
- 데이터는 악화되었습니다.
대체 방법 선택
- 순수 예측: 약간의 왜곡을 감수할 수 있지만, 이를 명확히 문서화하세요.
- 인사이트 또는 인과 분석: 정확도가 떨어지더라도 먼저 상관관계를 보존하세요.
- 이해관계자‑주도 의사결정: 대체를 기술적인 선택이 아닌 비즈니스 결정으로 다루세요.
결론
진실: “최고의” 대체 방법은 존재하지 않습니다. 목표에 맞는 최고의 대체 방법만 있을 뿐이며, 대부분의 팀은 목표 자체를 정의하지 않습니다.
여러분은 작업에서 무엇을 최적화하고 있나요? 더 깨끗한 예측을 원하나요, 아니면 데이터 내 더 정직한 관계를 원하나요?