학습을 위해 많은 라벨이 필요하지 않다
Source: Towards Data Science
Introduction
보통은 많은 라벨이 달린 데이터가 필요하다는 암묵적인 가정이 따라옵니다.
동시에, 많은 모델들은 라벨 없이도 데이터의 구조를 스스로 발견할 수 있습니다.
특히 생성 모델은 비지도 학습 과정에서 데이터를 의미 있는 클러스터로 자연스럽게 조직합니다. 이미지에 대해 학습할 경우, 잠재 표현에서 숫자, 객체, 혹은 스타일을 자연스럽게 구분할 수 있습니다.
이것은 간단하지만 중요한 질문을 제기합니다:
모델이 이미 라벨 없이 데이터의 구조를 발견했다면, 이를 분류기로 전환하기 위해 실제로 얼마나 많은 감독이 필요할까요?
이 글에서는 Gaussian Mixture Variational Autoencoder (GMVAE) (Dilokthanakul et al., 2016)를 이용해 이 질문을 탐구합니다.
Dataset
우리는 Cohen et al. (2017)이 소개한 EMNIST Letters 데이터셋을 사용합니다. 이는 원래 MNIST 데이터셋을 확장한 것입니다.
- Source: NIST Special Database 19
- Processed by: Cohen et al. (2017)
- Size: 145 600 images (26 balanced classes)
- Ownership: U.S. National Institute of Standards and Technology (NIST)
- License: Public domain (U.S. government work)
Disclaimer
이 글에 제공된 코드는 연구 및 재현성 목적으로만 사용됩니다. 현재 MNIST와 EMNIST 데이터셋에 맞추어져 있으며, 일반적인 프레임워크로 설계된 것이 아닙니다. 다른 데이터셋에 적용하려면 데이터 전처리, 아키텍처 튜닝, 하이퍼파라미터 선택 등 여러 조정이 필요합니다.
Code and experiments are available on GitHub: https://github.com/murex/gmvae-label-decoding
이 선택은 임의적인 것이 아닙니다. EMNIST는 고전적인 MNIST 데이터셋보다 훨씬 모호성이 높아, 확률적 표현의 중요성을 강조하는 더 좋은 벤치마크가 됩니다 (Figure 1).
GMVAE: 비지도 방식으로 구조 학습하기
표준 변분 오토인코더(VAE)는 데이터의 연속적인 잠재 표현 𝒛 를 학습하는 생성 모델입니다.
보다 정확히 말하면, 각 데이터 포인트 𝒙 는 다변량 정규 분포 𝒒(𝒛|𝒙) 로 매핑되며, 이를 사후분포 라고 합니다.
하지만 클러스터링을 수행하려면 이것만으로는 충분하지 않습니다. 표준 가우시안 사전분포를 사용하면 잠재 공간이 연속적으로 유지되어 자연스럽게 구별된 그룹으로 나뉘지 않습니다.
이때 GMVAE가 등장합니다.
GMVAE는 사전분포를 사전에 선택한 K 개의 구성 요소를 갖는 혼합분포로 교체함으로써 VAE를 확장합니다. 이를 위해 새로운 이산 잠재 변수 𝒄 가 도입됩니다:

이를 통해 모델은 클러스터에 대한 사후분포를 학습할 수 있습니다:

혼합분포의 각 구성 요소는 클러스터로 해석될 수 있습니다.
즉, GMVAE는 학습 과정에서 본질적으로 클러스터를 학습합니다.
K 의 선택은 표현력과 신뢰성 사이의 트레이드‑오프를 조절합니다.
- K 가 너무 작으면, 클러스터가 서로 다른 스타일이나 심지어 다른 글자를 합쳐 버려서 미세한 구조를 포착하는 능력이 제한됩니다.
- K 가 너무 크면, 클러스터가 지나치게 파편화되어 제한된 라벨이 있는 데이터 하위 집합으로부터 신뢰할 수 있는 라벨‑클러스터 관계를 추정하기 어려워집니다.
우리는 K = 100 을 타협점으로 선택했습니다: 각 클래스 내 스타일 변화를 포착하기에 충분히 크면서도, 라벨이 있는 데이터에서 각 클러스터가 충분히 대표될 수 있을 만큼 작습니다 (그림 1).

같은 글자의 서로 다른 스타일 변형이 포착됩니다. 예를 들어 대문자 F (c = 36)와 소문자 f (c = 0)가 있습니다. 클러스터는 순수하지 않으며, 구성 요소 c = 73은 주로 문자 “T”를 나타내지만 “J” 샘플도 포함합니다.
Source: …
클러스터를 분류기로 전환하기
GMVAE를 학습시키면 각 이미지가 클러스터에 대한 사후 분포 **𝒒(𝒄|𝒙)**와 연결됩니다.
실제로 클러스터 수가 알려져 있지 않을 때는 이를 하이퍼파라미터로 간주하고 그리드 서치를 통해 튜닝할 수 있습니다.
자연스러운 아이디어는 각 데이터 포인트를 단일 클러스터에 할당하는 것입니다. 하지만 클러스터 자체는 아직 의미론적 의미를 갖고 있지 않습니다. 클러스터를 레이블과 연결하려면 라벨이 지정된 부분집합이 필요합니다.
고전적인 베이스라인은 클러스터‑후‑라벨 접근법입니다: 데이터를 먼저 비지도 방법(예: k‑means 또는 GMM)으로 클러스터링하고, 각 클러스터에 라벨을 할당합니다. 라벨 할당은 일반적으로 라벨이 지정된 부분집합을 이용해 다수결로 수행됩니다. 이는 하드 어사인먼트 전략에 해당합니다.
이에 반해, 우리의 접근법은 단일 클러스터 할당에 의존하지 않습니다. 대신 클러스터에 대한 전체 사후 분포를 활용하여 각 데이터 포인트를 하나의 이산 할당이 아닌 클러스터들의 혼합으로 표현합니다. 이는 클러스터‑후‑라벨 패러다임의 확률적 일반화라고 볼 수 있습니다.
이론적으로 필요한 레이블 수는?
이상적인 상황에서는 클러스터가 완전히 순수하고 크기가 동일합니다. 라벨을 지정할 데이터를 자유롭게 선택할 수 있다면, 클러스터당 하나의 라벨된 예시만 있으면 충분합니다—즉, 총 K개의 레이블만 필요합니다.
N = 145 600이고 K = 100인 경우, 이는 **0.07 %**의 라벨된 데이터에 해당합니다.
실제로는 라벨이 지정된 샘플이 무작위로 추출된다고 가정합니다. 이 가정과 클러스터 크기가 동일하다는 전제 하에, 선택한 신뢰 수준을 만족하도록 모든 K 클러스터를 커버하기 위한 근사 하한을 도출할 수 있습니다. K = 100일 때, 95 % 신뢰도를 달성하려면 약 **0.6 %**의 라벨된 데이터가 필요합니다.
동일 크기 가정을 완화하면 보다 일반적인 부등식이 나오지만, 닫힌 형태 해는 존재하지 않습니다. 이러한 계산은 모두 낙관적인 가정에 기반합니다: 실제 클러스터는 완전히 순수하지 않으며(예: 한 클러스터에 “i”와 “l”이 비슷한 비율로 섞여 있을 수 있음) 그렇기 때문입니다.
남은 데이터에 레이블 할당하기
두 가지 전략을 비교합니다:
- Hard decoding – 모델이 제공하는 확률 분포를 무시합니다.
- Soft decoding – 사후 분포를 완전히 활용합니다.
Hard decoding
-
클러스터‑대‑라벨 매핑: 각 클러스터 𝒄에 대해, 해당 클러스터에 속한 라벨이 지정된 포인트들 중 가장 빈번한 라벨을 할당하여 함수 **ℓ(𝒄)**를 정의합니다.
-
라벨 예측: 라벨이 없는 이미지 𝒙에 대해 가장 가능성이 높은 클러스터를 찾습니다

그리고 라벨 **ℓ(𝒄ₕₐᵣ𝒹(𝒙))**를 할당합니다
.
제한점
- 모델의 불확실성을 무시합니다(GMVAE가 여러 클러스터 사이에서 “망설일” 수 있음).
- 클러스터가 순수하다고 가정하는데, 이는 일반적으로 사실이 아닙니다.
Soft decoding
클러스터당 하나의 라벨 대신, 각 라벨 ℓ에 대해 크기 K인 확률 벡터를 추정합니다:

이 벡터는 경험적으로 p(𝒄|ℓ) 를 나타냅니다.
각 이미지 𝒙에 대해 GMVAE는 사후 확률 벡터를 제공합니다:

우리는 𝒙에 대해 m(ℓ) 와 q(𝒙) 사이의 유사성을 최대화하는 라벨 ℓ를 선택합니다:

이 공식은 클러스터 할당의 불확실성과 클러스터의 불순도를 모두 고려합니다.
해석: q(𝒄|𝒙) 와 p(𝒄|ℓ) 를 비교하고, 𝒙의 사후와 가장 잘 맞는 클러스터 분포를 가진 라벨을 선택합니다.
Soft decoding이 도움이 되는 구체적 예시
Figure 2는 Soft decoding이 Hard decoding보다 우수한 경우를 보여줍니다.
diagroup.io/wp-content/uploads/2026/04/figure2-1024x279.png)
실제 라벨은 e입니다. 모델의 클러스터에 대한 사후분포(중앙)는 클러스터 76, 4, 0, 35, 81, 61에 높은 확률을 할당합니다.
하드 규칙은 가장 확률이 높은 클러스터(76)를 선택하는데, 이 클러스터는 주로 라벨 c와 연관되어 있어 잘못된 예측을 초래합니다.
소프트 디코딩은 가능한 모든 클러스터의 정보를 집계하여 가중 투표를 수행합니다. 이 예시에서 e에 대한 가중 점수가 c보다 높아 올바른 예측이 이루어집니다.
이는 하드 디코딩이 사후 분포 **q(𝒄|𝒙)**에 포함된 대부분의 정보를 버리는 반면, 소프트 디코딩은 생성 모델의 전체 불확실성을 활용한다는 것을 보여줍니다.
실제로 얼마나 많은 감독이 필요할까?
이론을 제쳐두고, 실제 데이터에 대해 다음과 같은 목표로 접근 방식을 평가합니다:
- 좋은 정확도를 달성하기 위해 필요한 라벨된 샘플 수를 결정합니다.
- 소프트 디코딩이 언제 이점을 제공하는지 파악합니다.
라벨된 샘플 수를 점진적으로 늘리면서 나머지 데이터에 대한 정확도를 평가하고, 표준 베이스라인인 로지스틱 회귀, MLP, XGBoost와 비교합니다. 결과는 5개의 랜덤 시드에 대해 평균 정확도와 95 % 신뢰 구간으로 보고됩니다 (Figure 3).

극히 작은 라벨된 부분집합만으로도 분류기는 이미 놀라울 정도로 좋은 성능을 보입니다.
- 73개의 라벨된 샘플만으로도(몇몇 클러스터가 대표되지 않음) 소프트 디코딩은 하드 디코딩에 비해 절대 정확도 향상이 약 18 퍼센트 포인트에 달합니다.
- 0.2 % 라벨된 데이터(291 샘플, 클러스터당 대략 3개의 라벨된 예시)만으로도 GMVAE 기반 분류기는 80 % 정확도에 도달합니다.
- 반면 XGBoost는 비슷한 성능을 얻기 위해 약 7 % 라벨된 데이터(≈35배 더 많은 감독)가 필요합니다.
이 결과는 중요한 점을 강조합니다: 분류에 필요한 대부분의 구조는 이미 비지도 단계에서 학습되었으며, 라벨은 이를 해석하는 데만 필요합니다.
결론
라벨 없이 훈련된 GMVAE를 사용하면 0.2 % 수준의 라벨 데이터만으로도 분류기를 구축할 수 있습니다.
- 비지도 모델은 분류에 필요한 구조의 대부분을 학습합니다.
- 라벨은 모델이 이미 발견한 클러스터를 해석하는 데에만 사용됩니다.
- 간단한 하드 디코딩 규칙도 좋은 성능을 보이지만, 전체 사후 분포를 활용하면 특히 지도 데이터가 부족할 때 일관된 향상을 제공합니다.
보다 넓게 보면, 이 실험은 라벨‑효율적인 머신러닝을 위한 유망한 패러다임을 제시합니다:
- 먼저 구조를 학습한다 (비지도).
- 나중에 라벨을 추가하여 학습된 표현을 해석한다.
많은 경우에 라벨은 학습 자체에 필요하지 않으며—이미 학습된 것을 명명하는 데에만 필요합니다.
모든 실험은 우리 자체 구현한 GMVAE와 평가 파이프라인을 사용하여 수행되었습니다.
참고 문헌
- Cohen, G., Afshar, S., Tapson, J., & van Schaik, A. (2017). EMNIST: Extending MNIST to handwritten letters.
- Dilokthanakul, N., Mediano, P. A., Garnelo, M., Lee, M. C., Salimbeni, H., Arulkumaran, K., & Shanahan, M. (2016). Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders.
© 2026 MUREX S.A.S. and Université Paris Dauphine — PSL
이 작업은 Creative Commons Attribution 4.0 International License에 따라 라이선스됩니다. 라이선스 사본을 보려면 https://creativecommons.org/licenses/by/4.0/ 를 방문하십시오.