[Paper] 정확도를 넘어: 임퓨테이션에서 불확실성 추정에 관한 실증 연구

발행: 1개월 전 (2025년 11월 27일 오전 02:27 GMT+9)

8 min read

원문: arXiv

Source: arXiv - 2511.21607v1

Overview

실제 데이터셋에서는 결측값이 흔히 발생하며, 이를 채우는 방법(임퓨테이션)은 이후 분석에 큰 영향을 미칠 수 있습니다. 최근 임퓨테이션 기법들은 재구성 정확도에 초점을 맞추는 동시에 불확실성 추정—각 임퓨트된 값에 대해 모델이 얼마나 자신 있는지를 제공한다고 주장합니다. 이 논문은 통계, 최적 수송, 그리고 딥 생성 모델 계열에 걸친 불확실성 추정치를 최초로 대규모·체계적으로 비교하며, 높은 정확도가 신뢰할 수 있는 불확실성을 보장하지 않음을 밝혀냅니다.

Key Contributions

포괄적인 벤치마크: 6개의 대표적인 임퓨터(MICE, SoftImpute, OT‑Impute, GAIN, MIWAE, TabCSDI)를 수십 개의 공개 표형 데이터셋에 적용.
세 가지 불확실성 추정 파이프라인을 나란히 평가:
1. 여러 번 실행한 결과의 변동성,
2. 모델로부터의 조건부 샘플링,
3. 명시적 예측 분포 모델링.
보정 중심 평가: 신뢰도 다이어그램과 Expected Calibration Error (ECE)를 사용. ECE는 분류에서 흔히 쓰이지만 여기서는 연속형 임퓨테이션에 맞게 적용했습니다.
실증적 통찰: 재구성 오류와 보정은 종종 직교한다는 점. 겉보기 가장 좋은 임퓨터가 자신의 의심을 가장 못 quantifying 할 수 있음.
실용적인 가이드: 정확도, 보정, 실행 시간 사이의 트레이드오프에 따라 임퓨터 선택 방법과, MCAR, MAR, MNAR 등 다양한 결측 메커니즘에 대해 잘 작동하는 “안정적인 구성”을 제시.

Methodology

Datasets & Missingness – 저자들은 다양한 표형 벤치마크(예: UCI, 의료, 금융)를 선정하고, 세 가지 전형적인 메커니즘에 따라 인위적으로 결측값을 삽입했습니다:
- MCAR (Missing Completely at Random)
- MAR (Missing at Random)
- MNAR (Missing Not at Random)
  결측 비율은 10 %에서 50 %까지 다양했습니다.
Imputation Families –
- 통계: Multiple Imputation by Chained Equations (MICE)와 SoftImpute(행렬 완성).
- 분포 정렬: OT‑Impute, 관측된 분포와 잠재 분포를 최적 수송으로 정렬.
- 딥 생성: GAIN(GAN 기반), MIWAE(중요도 가중 변분 오토인코더), TabCSDI(조건부 확산).
Uncertainty Estimation –
- 다중 실행 변동성: 서로 다른 랜덤 시드로 동일 모델을 여러 번 학습하고, 임퓨트 결과들의 퍼짐을 불확실성 대리 변수로 사용.
- 조건부 샘플링: 관측값을 조건으로 모델의 조건부 분포에서 다수 샘플을 추출(예: GAN 또는 확산 모델에서 여러 샘플).
- 예측 분포 모델링: 모델이 학습한 사후 분산을 직접 활용(VAE의 가우시안 디코더 분산 등).
Evaluation –
- 보정 곡선: 예측 신뢰 구간과 실제 커버리지를 비교하여 플롯.
- Expected Calibration Error (ECE): 예측된 신뢰도와 관측된 신뢰도 사이 평균 편차를 정량화.
- 재구성 오류: 보류된 실제값에 대한 평균제곱근오차(RMSE).
- 실행 시간: 단일 GPU/CPU 환경에서의 실제 경과 시간.

Results & Findings

Imputer	RMSE (lower = better)	ECE (lower = better)	Typical Runtime
MICE	★★	★★★★	★★
SoftImpute	★★	★★★	★
OT‑Impute	★★★	★★	★★
GAIN	★★★★	★★★	★★
MIWAE	★★★★	★	★★★
TabCSDI	★★★★★	★★	★★★★

Accuracy vs. Calibration: MIWAE와 TabCSDI는 가장 낮은 ECE로 최고의 보정을 달성하지만 RMSE 측면에서는 항상 최상은 아니다. 반대로 GAIN은 낮은 RMSE를 보이지만 보정이 좋지 않다.
Missingness Mechanism Matters: MNAR 상황에서는 OT‑Impute의 수송 기반 정렬이 비교적 안정적인 보정을 유지하는 반면, 통계적 방법은 급격히 성능이 떨어진다.
Uncertainty Estimation Route: 조건부 샘플링은 딥 생성 모델에서 다중 실행 변동성을 지속적으로 능가하며, 예측 분포 모델링은 VAE(MIWAE)에 가장 적합하다.
Runtime Trade‑off: 간단한 통계 방법은 빠르지만 불확실성 신호가 약하고, 확산 기반 TabCSDI는 강력한 불확실성을 제공하지만 계산 비용이 높다.

Practical Implications

Data‑Cleaning Pipelines: 다운스트림 모델이 임퓨테이션 오류에 민감한 경우(예: 위험 점수), 보정된 불확실성을 우선시(MIWAE 또는 TabCSDI)하여 의심스러운 항목을 수동 검토 대상으로 표시.
Active Learning & Experiment Design: 보정된 불확실성을 활용해 선택적 데이터 수집을 안내—임퓨테이션 분산이 큰 특징에 집중해 전체 모델 위험을 감소.
Model‑Based Decision Systems: 규제 분야(금융, 의료)에서는 단순 점 추정보다 보정된 신뢰 구간을 보고함으로써 컴플라이언스 요구를 충족할 수 있다.
Resource Allocation: 대규모 배치 작업에서 지연 시간이 중요한 경우 OT‑Impute가 적절한 선택—합리적인 정확도, 괜찮은 보정, 중간 수준의 실행 시간.
Tooling: 저자들은 파이썬 데이터 스택(pandas, scikit‑learn, PyTorch)과 연동되는 오픈소스 벤치마크 스위트를 공개했으며, 엔지니어가 임퓨터를 손쉽게 교체하고 자동으로 보정 진단을 얻을 수 있다.

Limitations & Future Work

Synthetic Missingness: 모든 실험이 인위적으로 만든 결측을 기반하므로, 실제 MNAR 패턴은 더 복잡할 수 있다.
Calibration Metric Scope: ECE는 전체 변수를 평균해 보여주지만, 변수별 보정을 살펴보면 숨겨진 편향을 발견할 수 있다.
Scalability: 확산 기반 TabCSDI는 100만 행을 초과하는 경우 성능이 저하되며, 향후 계층적 혹은 스트리밍 변형이 필요하다.
Beyond Tabular: 텍스트와 숫자가 혼합된 데이터나 시계열 데이터에 대한 확장은 아직 남아 있는 과제이다.

[Paper] 정확도를 넘어: 임퓨테이션에서 불확실성 추정에 관한 실증 연구

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

관련 글

[Paper] EvilGenie: 보상 해킹 벤치마크

[Paper] Bangla Sign Language Translation: 데이터셋 생성 과제, 벤치마킹 및 전망

[Paper] LLM이 인간과 같은 세밀한 증거를 추출하여 증거 기반 사실 검증에 활용할 수 있을까?

[Paper] CodeFuse-CommitEval: 커밋 메시지와 코드 변경 불일치 탐지에서 LLM의 성능 벤치마킹을 향하여