[Paper] AdaFuse: 적응형 앙상블 디코딩과 테스트 시 스케일링을 이용한 LLMs

발행: 1개월 전 (2026년 1월 10일 오전 03:58 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2601.06022v1

개요

AdaFuse는 대형 언어 모델(LLMs)을 배포하는 모든 사람에게 실질적인 문제점을 해결합니다: 비용이 많이 드는 재학습 없이 여러 모델의 최적 성능을 끌어내는 방법. 추론 중에 여러 LLM의 출력을 when과 how를 동적으로 결정하여 결합함으로써, AdaFuse는 QA, 추론, 번역과 같은 작업 전반에 걸쳐 답변 품질을 향상시키면서 추론 파이프라인을 가볍게 유지합니다.

주요 기여

Adaptive fusion granularity – 정적인 토큰‑레벨 또는 문장‑레벨 병합이 아니라, AdaFuse가 각 디코딩 단계에서 모델의 신뢰도에 따라 병합 여부를 결정합니다.
Uncertainty‑driven decision rule – “불확실한” 디코딩 상태를 표시하고 필요할 때만 앙상블 처리를 트리거하는, 간단하고 연산 친화적인 메트릭을 도입합니다.
Test‑time scaling with diversity awareness – 불확실성이 높을 때, 프레임워크는 후보 풀을 (온도 스케일링이나 top‑k 샘플링을 통해) 확장하여 다양한 연속성을 탐색한 뒤 병합합니다.
Synergistic loop – 스케일링으로 생성된 다양성이 더 나은 앙상블 결정에 다시 피드백되어, 최종 출력이 향상되는 선순환을 만듭니다.
Empirical gains – 오픈‑도메인 QA, 산술 추론, 기계 번역 벤치마크에서 강력한 베이스라인 대비 **~6.9 %**의 일관된 평균 향상을 달성했습니다.

방법론

입력 및 모델 풀 – 사전 학습된 LLM(다양한 아키텍처, 데이터 또는 체크포인트)의 집합은 변경되지 않은 상태로 유지됩니다.
단계별 디코딩 – 토큰 위치마다 각 모델이 다음 토큰 분포를 제안합니다.
신뢰도 추정 – AdaFuse는 불확실성 점수(예: 엔트로피 또는 top‑k 확률 간 마진)를 계산합니다.
결정 분기
- 불확실성 낮음 → 가장 자신 있는 모델의 토큰을 선택하고 추가 작업 없이 계속합니다.
- 불확실성 높음 → 테스트 시 스케일링을 호출: 온도를 높이거나 더 큰 top‑k 집합을 샘플링하여 풍부한 후보 리스트를 생성합니다.
적응형 융합 – 모든 모델의 후보 리스트를 단어 수준에서 정렬한 뒤, 4단계에서 도입된 다양성을 고려한 가중 투표 방식을 사용해 결합합니다.
반복 – 다음 토큰에 대해 프로세스를 반복하여, 전체 생성 과정에서 융합 세분화가 동적으로 변하도록 합니다.

전체 파이프라인은 기존 생성 API를 감싸는 얇은 래퍼로 구현되어, 최소한의 코드 변경만으로도 프로덕션에 바로 적용할 수 있습니다.

결과 및 발견

작업	베이스라인 (정적 앙상블)	AdaFuse	상대 향상
오픈‑도메인 QA (TriviaQA)	78.4 % EM	84.2 % EM	+7.4 %
산술 추론 (GSM‑8K)	62.1 % Acc	68.5 % Acc	+6.3 %
기계 번역 (WMT‑En‑De)	29.8 BLEU	31.9 BLEU	+7.0 %

핵심 요약

선택적 앙상블은 많은 토큰이 융합 없이 생성되기 때문에 연산량을 절감합니다 (≈30 % 적은 포워드 패스).
다양성 인식 스케일링은 특히 모호하거나 다단계 문제에서 앙상블이 동일한 우세 가설로 수렴하는 것을 방지합니다.
이 접근법은 매우 다른 다운스트림 작업들에서도 작동하여, 불확실성 신호가 견고함을 보여줍니다.

실용적 시사점

비용 효율적인 성능 향상 – 개발자는 더 큰 모델을 학습하거나 앙상블을 미세 조정하지 않고도 LLM 출력물을 개선할 수 있으며, 추가 추론 오버헤드는 “hard” 토큰에만 발생합니다.
플러그‑앤‑플레이 통합 – AdaFuse가 디코딩 단계에서 작동하기 때문에 기존 추론 서비스(예: OpenAI API 래퍼, Hugging Face 파이프라인)에 몇 줄의 코드만으로 추가할 수 있습니다.
동적 자원 할당 – 지연 시간에 민감한 환경에서는 불확실성 임계값을 조정하여 속도와 품질 사이의 균형을 맞출 수 있으며, SLA 요구 사항에 따라 적응형 스로틀링을 가능하게 합니다.
에지 케이스에 대한 향상된 처리 – 다단계 추론이나 희귀 어휘를 포함하는 작업은 추가 탐색을 통해 이점을 얻어 환각을 줄이고 사실성을 향상시킵니다.

제한 사항 및 향후 연구

임계값 민감도 – 불확실성 컷오프는 작업마다 경험적 튜닝이 필요하며, 최적이 아닌 설정은 연산을 낭비하거나 개선을 놓칠 수 있습니다.
다수 모델에 대한 확장성 – AdaFuse가 불필요한 융합을 줄이긴 하지만, 최악의 경우 높은 불확실성을 가진 토큰에 대해 모든 모델을 병렬로 실행해야 하며, 이는 GPU 메모리를 압박할 수 있습니다.
다양성 메트릭 단순성 – 현재 스케일링은 temperature/top‑k에 의존하고 있으며, 보다 정교한 다양성 촉진 샘플러(예: 엔트로피 정규화를 포함한 nucleus sampling) 등이 성능을 더욱 향상시킬 수 있습니다.
광범위한 평가 – 향후 연구에서는 코드 생성, 대화 시스템, 멀티모달 LLM 등과 불확실성 임계값을 학습하는 자동화 방법을 탐색할 수 있습니다.

AdaFuse는 개발자들이 기존 LLM 군집에서 추가 성능을 끌어내는 실용적인 길을 열어 주며, 추론 시점의 불확실성을 더 똑똑하고 저렴한 앙상블을 위한 지렛대로 전환합니다.

저자

Chengming Cui
Tianxin Wei
Ziyi Chen
Ruizhong Qiu
Zhichen Zeng
Zhining Liu
Xuying Ning
Duo Zhou
Jingrui He

논문 정보

arXiv ID: 2601.06022v1
Categories: cs.CL, cs.AI
Published: January 9, 2026
PDF: PDF 다운로드

[Paper] AdaFuse: 적응형 앙상블 디코딩과 테스트 시 스케일링을 이용한 LLMs

개요

주요 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 생각의 분자 구조: Long Chain-of-Thought Reasoning 위상의 매핑

[Paper] 머신러닝 에이전트를 실행하기 전에 예측할 수 있을까?

[Paper] 자신감의 착각? Neighborhood Consistency를 통한 LLM 진실성 진단

[Paper] 도메인 쉬프트 하에서 Preference Tuning 일반화와 다양성에 관한 실증 연구