공변량 시프트 하의 베이지안 신경망: 이론이 실천에 실패할 때

발행: (2025년 12월 15일 오전 04:25 GMT+9)
11 min read
원문: Dev.to

Source: Dev.to

베이지안 강건성의 놀라운 실패

베이지안 딥러닝 문헌을 따라오셨다면, 아마도 다음과 같은 표준 서술을 접했을 것입니다: 베이지안 방법은 원칙적인 불확실성 정량화를 제공하므로, 분포 변화에 대해 더 강건해야 한다. 이론은 설득력 있게 들립니다—분포 외 데이터에 직면했을 때, 베이지안 모델 평균화(BMA)는 여러 가능한 설명을 고려하여 보정된 불확실성과 더 나은 일반화를 이끌어야 합니다.

하지만 이 서술이 근본적으로 잘못되었다면 어떨까요? 실제로 정확한 추론을 사용하는 베이지안 신경망(BNN)이 고전적인 대응 방법보다 분포 변화에 덜 강건하다는 것이 사실이라면?

이것이 바로 Izmailov et al.이 2021년 NeurIPS 논문 *“Dangers of Bayesian Model Averaging under Covariate Shift.”*에서 발견한 내용입니다. 그들의 발견은 베이지안 방법에 대한 핵심 가정을 뒤흔들며, 실세계 응용에 중요한 함의를 가집니다.

직관에 반하는 결과

가장 눈에 띄는 발견부터 살펴보겠습니다:

베이지안 신경망이 공변량 변화 하에서. (a): CIFAR‑10‑C의 픽셀화 손상에 대한 ResNet‑20의 성능. 가장 높은 손상 정도에서 베이지안 모델 평균은 MAP 솔루션보다 25 % (정확도 44 % 대 69 %) 낮게 나타납니다. 자세한 내용은 Izmailov et al. [2021]을 참고하세요. (b): HMC로 샘플링한 MNIST에 대한 베이지안 완전 연결 네트워크 첫 번째 층의 가중치 시각화. (c): 해당 MAP 가중치. 입력 픽셀과 은닉층 뉴런을 연결하는 가중치를 28 × 28 이미지로 시각화했으며, 각 가중치는 상호작용하는 입력 픽셀 위치에 표시됩니다.

네, 제대로 읽으셨습니다. 심하게 손상된 CIFAR‑10‑C 데이터에서, Hamiltonian Monte Carlo(HMC)를 사용한 베이지안 신경망은 **정확도 44 %**에 불과한 반면, 단순 Maximum a‑Posteriori(MAP) 추정은 **정확도 69 %**를 기록했습니다—25 퍼센트 포인트 차이로 단순한 방법이 우위에 있습니다!

이는 특히 깨끗한, 분포 내 데이터에서는 BNN이 MAP보다 약 5 % 정도 더 좋은 성능을 보였기 때문에 놀라운 일입니다. 즉, 표준 벤치마크에서는 더 좋지만, 분포 변화 상황에서는 재앙적으로 실패하는 방법을 발견한 것입니다.

왜 이런 일이 발생할까? “죽은 픽셀” 비유

저자들은 “죽은 픽셀” 현상을 통해 우아한 설명을 제시합니다. MNIST 숫자를 생각해 보세요—코너에는 항상 검은 픽셀(강도 = 0)이 있습니다. 이러한 픽셀은 학습 중에 절대 활성화되지 않으며 죽은 픽셀이라고 부릅니다.

베이지안 문제

  • 죽은 픽셀에 연결된 가중치는 학습 손실에 영향을 주지 않습니다(항상 0과 곱해짐).
  • 따라서 이러한 가중치에 대한 사후분포는 사전분포와 동일합니다(업데이트되지 않음).
  • 테스트 시, 노이즈가 죽은 픽셀을 활성화할 수 있습니다.
  • 사전에서 무작위로 샘플링된 가중치가 비제로 값을 곱하게 되면서 네트워크를 통해 노이즈가 전파되고, 예측이 크게 악화됩니다.
p(w_{ij}^1 \mid \mathcal{D}) = p(w_{ij}^1) \quad \text{if } x_k^i = 0 \ \forall i

MAP 솔루션

  • 죽은 픽셀에 연결된 가중치는 정규화 항에 의해 0에 가깝게 밀려납니다.
  • 테스트 시 죽은 픽셀이 활성화되더라도, 0에 가까운 가중치는 이를 무시합니다.
  • 따라서 노이즈가 전파되지 않아 강건한 예측이 가능합니다.

Lemma 1

만약 특징 (x_k^i = 0)이 모든 학습 예제에 대해 성립하고 사전이 독립적으로 분해된다면
[ p(w_{ij}^1 \mid \mathcal{D}) = p(w_{ij}^1) ]
즉, 사후분포가 사전과 동일하고, 해당 가중치는 무작위로 남아 있습니다.

일반적인 문제: 선형 의존성

죽은 픽셀 예시는 학습 데이터에 존재하는 선형 의존성이 동일한 실패 모드를 일으킬 수 있다는 보다 넓은 이슈의 특수 경우입니다.

Proposition 2 (Izmailov et al.)는 학습 데이터가 다음과 같은 affine 부분공간에 존재한다면

[ \sum_{j=1}^m x_i^j c_j = c_0 \quad \forall i, ]

다음이 성립한다고 명시합니다:

  • 가중치 투영 (w_j^c = \sum_{i=1}^m c_i w_{ij}^1 - c_0 b_j^1)의 사후분포는 사전과 동일합니다.
  • MAP는 (w_j^c = 0)으로 설정합니다.
  • BMA 예측은 부분공간 밖의 테스트 데이터에 대해 매우 민감해집니다.

이는 특정 손상이 BNN을 다른 손상보다 더 크게 해치는 이유를 설명합니다:

MNIST에서의 강건성. 공변량 변화 하에서 MNIST에 대해 훈련된 딥 앙상블, MAP, 베이지안 신경망의 정확도. 상단: 완전 연결 네트워크; 하단: 합성곱 네트워크. 원본 MNIST 테스트 세트에서는 BNN이 경쟁력 있는 성능을 보이지만, 대부분의 손상에서는 딥 앙상블보다 뒤처집니다. CNN 아키텍처에서는 SVHN에 대해 평가했을 때 BNN 변형 모두 MAP보다 거의 20 % 낮은 성능을 보입니다.

CIFAR‑10에서의 강건성. 공변량 변화 하에서 CIFAR‑10에 대해 훈련된 딥 앙상블, MAP, 베이지안 신경망(CNN 아키텍처)의 정확도. CIFAR‑10‑C 손상에 대해 강도 4 결과를 보고합니다. BNN은 라플라스와 가우시안 사전 모두에서 인‑분포 정확도는 딥 앙상블을 앞서지만, 대부분의 손상에서는 단일 MAP 솔루션보다도 낮은 성능을 보입니다.

뛰어난 해결책: EmpCov 사전

저자들은 데이터 공분산 구조에 맞춘 사전을 제안함으로써 간단하면서도 우아한 해결책을 제시합니다.

경험적 공분산(EmpCov) 사전

첫 번째 층 가중치에 대해:

[ p(w^{(1)}) = \mathcal{N}!\left(0,; \alpha \Sigma + \epsilon I\right), \qquad \Sigma = \frac{1}{n-1}\sum_{i=1}^{n} x_i x_i^\top, ]

여기서 (\Sigma)는 경험적 데이터 공분산, (\alpha)는 스케일링 팩터, (\epsilon)은 작은 jitter 항입니다.

베이지안 추론은 사전으로부터 저분산 주성분을 따라 가중치를 샘플링하고, MAP는 이러한 가중치를 0으로 설정합니다. (a): BNN 샘플과 MAP 솔루션(MLP 및 CNN)의 첫 번째 층 가중치를 PCA 방향에 투영한 분포(평균 ± 2 표준편차). MAP는 저분산 성분을 0으로 만들고, BNN 샘플은 이를 유지합니다. (b): MNIST 테스트 세트에 대해 가장 높은 50개와 가장 낮은 50개 PCA 성분에 가우시안 노이즈를 적용했을 때의 정확도. MAP는 저분산 방향의 노이즈에 강건하지만 BMA는 그렇지 않으며, 고분산 성분에서는 두 방법 모두 비슷한 강건성을 보입니다.

작동 원리

  • 사전의 고유벡터 = 데이터의 주성분.
  • PC (p_i)에 대한 사전 분산: (\alpha \sigma_i^2 + \epsilon).
  • 분산이 0인 방향((\sigma_i^2 = 0))에서는 분산이 (\epsilon) (극소)으로 감소합니다.
  • 결과: BNN이 중요하지 않은 방향에서 큰 무작위 가중치를 샘플링하지 못하게 하여, 노이즈 증폭을 방지합니다.

실험적 개선

손상 / 변화BNN (Gaussian)BNN (EmpCov)개선
가우시안 노이즈21.3 %52.8 %+31.5 pp
샷 노이즈24.1 %54.2 %+30.1 pp
MNIST → SVHN31.2 %45.8 %+14.6 pp

EmpCov 사전이 강건성을 향상시킵니다. 공변량 변화 하에서 딥 앙상블, SGD 기반 MAP 최적화, 가우시안 및 EmpCov 사전을 사용한 BNN의 테스트 정확도. 좌측: MNIST에 훈련된 MLP 아키텍처. 우측: CIFAR‑10에 훈련된 CNN 아키텍처. EmpCov 사전은 특히 노이즈 손상 및 도메인 이동 실험(SVHN, STL‑10)에서 표준 가우시안 사전보다 일관된 개선을 제공합니다.

Back to Blog

관련 글

더 보기 »