[Paper] 하나의 모델에서 다수의 마음: 베이지안 트랜스포머를 이용한 Population Intelligence
Source: arXiv - 2512.25063v1
개요
현대의 대형 언어 모델(LLM)은 일반적으로 하나의 가중치 집합에 수렴하도록 학습되어, 하나의 결정론적 “마음”을 생성합니다. 논문 Many Minds from One Model: Bayesian Transformers for Population Intelligence에서는 Population Bayesian Transformers (B‑Trans) 를 소개합니다. 이는 사전 학습된 트랜스포머를 베이지안 스타일 모델로 전환하여 동일한 가중치 파일에서 다수의 일관된 “개인”을 생성할 수 있는 가벼운 방법입니다. 다양한 동시에 유능한 모델 인스턴스를 샘플링함으로써, B‑Trans는 개발자들이 전체 베이지안 신경망 훈련의 높은 비용 없이도 고전적인 “군중의 지혜”를 활용할 수 있게 합니다.
핵심 기여
- Bayesian proxy for transformers – LayerNorm(및 유사 정규화 레이어)에서의 편향과 같은 오프셋을 가우시안 변분 사후분포를 가진 확률 변수로 취급하여 모델 동작에 대한 분포를 생성한다.
- Zero‑cost diversification – 이 방법은 이미 학습된 LLM 위에서 동작하며 추가 사전 학습이나 비용이 많이 드는 사후 추론이 필요하지 않는다.
- Temporal consistency – 샘플링된 노이즈가 전체 생성 시퀀스 동안 고정되어 각 “개체”가 토큰 전반에 걸쳐 내부적으로 일관성을 유지한다.
- Population‑level inference – 여러 샘플링된 개체들의 예측을 집계(예: 다수결, 가중 평균)하여 탐색과 견고성을 향상시킬 수 있다.
- Empirical validation – 제로샷 생성, 검증 가능한 보상을 갖는 강화학습(RLVR), 라벨이 없는 강화학습 등에서 의미적 다양성과 다운스트림 작업 성능 향상을 보여준다.
Methodology
- Identify a stochastic sub‑space – 저자들은 정규화 레이어의 additive offsets(예: LayerNorm의 bias 항)에 초점을 맞춥니다. 이는 모델의 원시 용량에는 거의 영향을 주지 않지만 출력 분포를 이동시킬 수 있는 작은 bias‑유사 파라미터입니다.
- Variational Gaussian posterior – 각 offset마다 평균(원래의 결정적 값)과 학습된 분산을 도입합니다. 분산은 단순 KL‑정규화 손실을 사용해 베이지안 사후분포를 근사하도록 최적화되지만, 핵심은 손실이 사전 학습된 모델에 대해 한 번만 계산된다는 점이며 전체 베이지안 학습 루프가 필요하지 않습니다.
- Sampling procedure – 추론 시점에 각 offset에 대해 가우시안 샘플을 추출하여 구체적인 “노이즈가 섞인” 가중치 집합을 생성합니다. 이 샘플이 인구 내 개별을 정의합니다.
- Sequence‑level freezing – 샘플된 노이즈 벡터는 주어진 프롬프트의 전체 생성 과정 동안 고정되어, 모델이 토큰별로 흔들리는 것이 아니라 일관된 페르소나처럼 동작하도록 합니다.
- Population decision making – 입력에 대해 시스템은 N개의 개별을 뽑아 그들의 예측(예: 토큰 확률, 행동 점수)을 수집하고, 이를 (다수결, 평균, 혹은 더 정교한 군중 지혜 방식)으로 집계합니다.
전체 파이프라인은 어떤 오프‑더‑쉘프 트랜스포머 체크포인트에도 적용할 수 있어, 개발자에게 드롭‑인 “인구 레이어”를 제공합니다.
결과 및 발견
| 실험 | 지표 | 결정론적 베이스라인 | B‑Trans (인구) |
|---|---|---|---|
| 제로샷 텍스트 생성 (다양성‑BLEU) | ↑ | 0.42 | 0.58 |
| RLVR (보상 달성) | ↑ | 71 % | 84 % |
| 비지도 강화학습 (에피소드 반환) | ↑ | 0.63 | 0.71 |
| 토큰당 평균 퍼플렉시티 | ↔ | 12.4 | 12.6 (negligible drop) |
- 시맨틱 다양성이 크게 향상되면서 유창성은 비슷하게 유지됩니다.
- 군집 집계는 일관되게 단일 결정론적 모델보다 우수하며, 특히 탐색을 필요로 하는 작업(예: 희소 보상이 있는 강화학습)에서 두드러집니다.
- 추가된 변동성은 크게 표준 언어 모델링 품질을 저하시치 않으며, 이는 사후 프록시가 잘 보정되었음을 확인합니다.
실용적인 시사점
- 향상된 창의성 도구 – 콘텐츠 생성 플랫폼은 단일 모델에서 여러 “개성”을 노출할 수 있어, 사용자가 많은 별도 체크포인트를 저장하지 않고도 가장 매력적인 버전을 선택할 수 있습니다.
- 견고한 의사결정 – AI 지원 코딩, 채팅, 추천 시스템에서 인구 전체의 예측을 집계하면 환각을 줄이고 신뢰성을 향상시킬 수 있습니다.
- 효율적인 강화학습 에이전트 – 시뮬레이션 기반 훈련(게임, 로보틱스)에서 B‑Trans는 탐색 다양성을 저비용으로 주입하는 방법을 제공하여 훈련 주기를 단축할 가능성이 있습니다.
- 추론 단계에서 A/B 테스트 – 배포자는 동일한 바이너리에서 여러 샘플링된 개체를 병렬로 실행하고 실시간으로 최상의 결과를 선택할 수 있습니다.
- 자원 친화적인 “앙상블” – 전통적인 앙상블은 여러 전체 모델을 필요로 하지만, B‑Trans는 단일 가중치 파일과 적당한 CPU/GPU 오버헤드(샘플링은 저렴함)로 앙상블과 유사한 이점을 제공합니다.
제한 사항 및 향후 작업
- 확률성 범위 – 현재 프록시는 정규화 오프셋만 변형합니다; 더 풍부한 사후 분포군(예: 가중치 행렬, 어텐션 헤드)은 보다 미묘한 불확실성을 포착할 수 있지만 계산 비용이 증가합니다.
- 샘플링 확장성 – 샘플링은 비용이 저렴하지만, 많은 샘플을 집계하면 실시간 서비스에서 지연이 발생할 수 있습니다; 적응형 샘플링 전략이 필요합니다.
- 이론적 보장 – 가우시안 변분 근사는 휴리스틱이며; 더 엄밀한 베이지안 경계 또는 대체 사후 분포군은 캘리브레이션을 향상시킬 수 있습니다.
- 작업별 튜닝 – 분산 하이퍼파라미터는 소수의 벤치마크에서 튜닝되었습니다; 코드, 멀티모달, 검색 등 다양한 도메인에 대한 폭넓은 평가가 향후 과제입니다.
전반적으로 B‑Trans는 단일 트랜스포머에서 “다수의 사고”를 구현하는 실용적인 경로를 열어주며, 개발자에게 다양성, 견고성 및 탐색을 위한 새로운 레버를 제공하면서 전체 베이지안 딥러닝의 무거운 부담을 피할 수 있게 합니다.
저자
- Diji Yang
- Yi Zhang
논문 정보
- arXiv ID: 2512.25063v1
- 카테고리: cs.LG, cs.CL
- 출판일: 2025년 12월 31일
- PDF: Download PDF