[Paper] 정확도를 넘어: 임퓨테이션에서 불확실성 추정에 관한 실증 연구
Source: arXiv - 2511.21607v1
Overview
실제 데이터셋에서는 결측값이 흔히 발생하며, 이를 채우는 방법(임퓨테이션)은 이후 분석에 큰 영향을 미칠 수 있습니다. 최근 임퓨테이션 기법들은 재구성 정확도에 초점을 맞추는 동시에 불확실성 추정—각 임퓨트된 값에 대해 모델이 얼마나 자신 있는지를 제공한다고 주장합니다. 이 논문은 통계, 최적 수송, 그리고 딥 생성 모델 계열에 걸친 불확실성 추정치를 최초로 대규모·체계적으로 비교하며, 높은 정확도가 신뢰할 수 있는 불확실성을 보장하지 않음을 밝혀냅니다.
Key Contributions
- 포괄적인 벤치마크: 6개의 대표적인 임퓨터(MICE, SoftImpute, OT‑Impute, GAIN, MIWAE, TabCSDI)를 수십 개의 공개 표형 데이터셋에 적용.
- 세 가지 불확실성 추정 파이프라인을 나란히 평가:
- 여러 번 실행한 결과의 변동성,
- 모델로부터의 조건부 샘플링,
- 명시적 예측 분포 모델링.
- 보정 중심 평가: 신뢰도 다이어그램과 Expected Calibration Error (ECE)를 사용. ECE는 분류에서 흔히 쓰이지만 여기서는 연속형 임퓨테이션에 맞게 적용했습니다.
- 실증적 통찰: 재구성 오류와 보정은 종종 직교한다는 점. 겉보기 가장 좋은 임퓨터가 자신의 의심을 가장 못 quantifying 할 수 있음.
- 실용적인 가이드: 정확도, 보정, 실행 시간 사이의 트레이드오프에 따라 임퓨터 선택 방법과, MCAR, MAR, MNAR 등 다양한 결측 메커니즘에 대해 잘 작동하는 “안정적인 구성”을 제시.
Methodology
-
Datasets & Missingness – 저자들은 다양한 표형 벤치마크(예: UCI, 의료, 금융)를 선정하고, 세 가지 전형적인 메커니즘에 따라 인위적으로 결측값을 삽입했습니다:
- MCAR (Missing Completely at Random)
- MAR (Missing at Random)
- MNAR (Missing Not at Random)
결측 비율은 10 %에서 50 %까지 다양했습니다.
-
Imputation Families –
- 통계: Multiple Imputation by Chained Equations (MICE)와 SoftImpute(행렬 완성).
- 분포 정렬: OT‑Impute, 관측된 분포와 잠재 분포를 최적 수송으로 정렬.
- 딥 생성: GAIN(GAN 기반), MIWAE(중요도 가중 변분 오토인코더), TabCSDI(조건부 확산).
-
Uncertainty Estimation –
- 다중 실행 변동성: 서로 다른 랜덤 시드로 동일 모델을 여러 번 학습하고, 임퓨트 결과들의 퍼짐을 불확실성 대리 변수로 사용.
- 조건부 샘플링: 관측값을 조건으로 모델의 조건부 분포에서 다수 샘플을 추출(예: GAN 또는 확산 모델에서 여러 샘플).
- 예측 분포 모델링: 모델이 학습한 사후 분산을 직접 활용(VAE의 가우시안 디코더 분산 등).
-
Evaluation –
- 보정 곡선: 예측 신뢰 구간과 실제 커버리지를 비교하여 플롯.
- Expected Calibration Error (ECE): 예측된 신뢰도와 관측된 신뢰도 사이 평균 편차를 정량화.
- 재구성 오류: 보류된 실제값에 대한 평균제곱근오차(RMSE).
- 실행 시간: 단일 GPU/CPU 환경에서의 실제 경과 시간.
Results & Findings
| Imputer | RMSE (lower = better) | ECE (lower = better) | Typical Runtime |
|---|---|---|---|
| MICE | ★★ | ★★★★ | ★★ |
| SoftImpute | ★★ | ★★★ | ★ |
| OT‑Impute | ★★★ | ★★ | ★★ |
| GAIN | ★★★★ | ★★★ | ★★ |
| MIWAE | ★★★★ | ★ | ★★★ |
| TabCSDI | ★★★★★ | ★★ | ★★★★ |
- Accuracy vs. Calibration: MIWAE와 TabCSDI는 가장 낮은 ECE로 최고의 보정을 달성하지만 RMSE 측면에서는 항상 최상은 아니다. 반대로 GAIN은 낮은 RMSE를 보이지만 보정이 좋지 않다.
- Missingness Mechanism Matters: MNAR 상황에서는 OT‑Impute의 수송 기반 정렬이 비교적 안정적인 보정을 유지하는 반면, 통계적 방법은 급격히 성능이 떨어진다.
- Uncertainty Estimation Route: 조건부 샘플링은 딥 생성 모델에서 다중 실행 변동성을 지속적으로 능가하며, 예측 분포 모델링은 VAE(MIWAE)에 가장 적합하다.
- Runtime Trade‑off: 간단한 통계 방법은 빠르지만 불확실성 신호가 약하고, 확산 기반 TabCSDI는 강력한 불확실성을 제공하지만 계산 비용이 높다.
Practical Implications
- Data‑Cleaning Pipelines: 다운스트림 모델이 임퓨테이션 오류에 민감한 경우(예: 위험 점수), 보정된 불확실성을 우선시(MIWAE 또는 TabCSDI)하여 의심스러운 항목을 수동 검토 대상으로 표시.
- Active Learning & Experiment Design: 보정된 불확실성을 활용해 선택적 데이터 수집을 안내—임퓨테이션 분산이 큰 특징에 집중해 전체 모델 위험을 감소.
- Model‑Based Decision Systems: 규제 분야(금융, 의료)에서는 단순 점 추정보다 보정된 신뢰 구간을 보고함으로써 컴플라이언스 요구를 충족할 수 있다.
- Resource Allocation: 대규모 배치 작업에서 지연 시간이 중요한 경우 OT‑Impute가 적절한 선택—합리적인 정확도, 괜찮은 보정, 중간 수준의 실행 시간.
- Tooling: 저자들은 파이썬 데이터 스택(pandas, scikit‑learn, PyTorch)과 연동되는 오픈소스 벤치마크 스위트를 공개했으며, 엔지니어가 임퓨터를 손쉽게 교체하고 자동으로 보정 진단을 얻을 수 있다.
Limitations & Future Work
- Synthetic Missingness: 모든 실험이 인위적으로 만든 결측을 기반하므로, 실제 MNAR 패턴은 더 복잡할 수 있다.
- Calibration Metric Scope: ECE는 전체 변수를 평균해 보여주지만, 변수별 보정을 살펴보면 숨겨진 편향을 발견할 수 있다.
- Scalability: 확산 기반 TabCSDI는 100만 행을 초과하는 경우 성능이 저하되며, 향후 계층적 혹은 스트리밍 변형이 필요하다.
- Beyond Tabular: 텍스트와 숫자가 혼합된 데이터나 시계열 데이터에 대한 확장은 아직 남아 있는 과제이다.