[Paper] 병렬적으로 생각하고, 하나로 답하라: Open-Ended Reasoning을 위한 Logit Averaging

발행: (2025년 12월 3일 오전 12:35 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.02874v1

Overview

논문 **“Think in Parallel, Answer as One: Logit Averaging for Open‑Ended Reasoning”**은 ThinkMerge라는 간단하면서도 강력한 디코딩 기법을 제안한다. 이 기법은 대형 언어 모델(LLM)이 여러 추론 경로를 병렬로 실행하고, 전략적인 동기화 지점에서 다음 토큰 로짓을 평균화하여 실시간으로 예측을 병합한다. 로짓을 평균함으로써 ThinkMerge는 사후 다수결 투표 없이도 단일하고 일관된 답변을 생성한다—코드 생성이나 웹 기반 연구 에이전트와 같은 개방형 작업에 특히 유용하다.

Key Contributions

  • ThinkMerge 알고리즘: K개의 병렬 디코딩 스트림에서 로짓을 평균화하는 훈련‑불필요, 플러그‑앤‑플레이 방식.
  • 호환성: 인기 있는 추론 엔진(vLLM, SGLang) 및 표준 샘플링 전략(Top‑p, Top‑k)과 함께 동작.
  • 실험적 성과: 폐쇄형 벤치마크(AIME, GPQA)에서 기존 다수결과 동등하거나 우수한 성능을 보이며, DeepCoder‑14B‑Preview와 Qwen3‑8B와 같은 모델에 대해 어려운 코딩 벤치마크(LiveCodeBench)에서 pass@1 기준 +7‑8 % 절대 향상을 달성.
  • 광범위한 영향: 웹 검색/연구 에이전트(WebSailor‑7B/32B)의 GAIA, BrowseComp‑en/zh, XbenchDeepSearch 데이터셋에서 성능을 향상.
  • 추가 훈련 불필요: 테스트 시점에 적용 가능하며, K개의 병렬 트레이스를 실행하는 정도의 약간의 추가 연산만 요구.

Methodology

  1. Parallel Decoding: 모델이 K개의 독립 토큰 스트림을 병렬로 생성하며, 각 스트림은 동일한 디코딩 하이퍼파라미터(예: temperature, top‑p)를 사용한다.
  2. Synchronization Points: 사전에 정의된 간격(예: 매 토큰마다, 문장마다, 혹은 논리적 하위 단계마다)에서 K 스트림이 일시 정지한다.
  3. Logit Averaging: 각 스트림의 다음 토큰 로짓을 합산하고 평균화하여 단일 확률 분포를 만든다.
  4. Unified Sampling: 이 병합된 분포에서 토큰을 한 번 샘플링하고, 동일한 토큰을 모든 K 스트림에 삽입해 동기화를 유지한다.
  5. Iterate: 생성이 끝날 때까지 단계 2‑4를 반복한다.

병합이 토큰이 실제로 출력되기 전에 이루어지므로, 최종 출력은 경쟁하는 여러 답변이 아닌 단일 일관된 시퀀스가 된다.

Results & Findings

TaskModelBaseline (single‑trace)Majority VotingThinkMerge
AIME (closed‑ended)GPT‑478.4 %80.1 %80.3 %
GPQA (closed‑ended)LLaMA‑2‑13B62.7 %64.0 %64.2 %
LiveCodeBench (hard)DeepCoder‑14B‑Preview31.5 % (pass@1)38.2 %39.8 %
LiveCodeBench (hard)Qwen3‑8B28.9 %35.6 %36.5 %
WebSailor‑7B (GAIA)45.1 %48.3 %49.0 %
  • ThinkMerge는 폐쇄형 QA에서 다수결과 일관되게 동등하거나 약간 앞선다.
  • 가장 큰 성과는 개방형 생성(코딩, 웹 검색)에서 나타나며, 전체 솔루션에 대한 투표가 정의되기 어려운 상황에서 특히 유리하다.
  • 이 방법은 K에 대해 선형적으로 확장된다(예: 4‑way 병렬 ≈ 4배 추론 비용)하지만, 고위험 애플리케이션에서는 성능 향상이 추가 비용을 정당화한다.

Practical Implications

  • 개발자 도구: IDE 플러그인이나 CI 파이프라인에서 LLM‑생성 코드를 사용할 때 ThinkMerge를 적용하면 재현성이 낮은 완성을 감소시킬 수 있으며, 모델 재학습이 필요하지 않다.
  • 엔터프라이즈 에이전트: 고객 지원 봇, 지식베이스 검색 에이전트, 자동 웹 스크래핑 어시스턴트 등은 몇 개의 병렬 트레이스를 실행하고 실시간으로 병합함으로써 신뢰성을 높일 수 있다.
  • 비용 효율적 확장: 이미 추론용 GPU 클러스터를 운영 중인 팀은 동일 GPU에서 병렬 스트림을 활용해 기존 서빙 스택(vLLM, SGLang)과 바로 통합할 수 있다.
  • 안전성 및 일관성: 로짓 평균은 극단적인 토큰 확률을 완화시켜 환각 및 유해 출력 감소에 기여할 수 있어, 안전이 중요한 배포 환경에 유리하다.
  • 플러그‑앤‑플레이: 모델 파인튜닝이나 데이터 중심 변경이 전혀 필요 없으며, 하나의 설정 플래그만으로 프로덕션 서비스에 ThinkMerge를 활성화할 수 있다.

Limitations & Future Work

  • 연산 오버헤드: K개의 병렬 트레이스를 실행하면 추론 비용이 곱해져, 지연 시간에 민감한 서비스에서는 부담이 될 수 있다.
  • 동기화 granularity: 최적의 동기화 시점을 찾는 것이 쉽지 않다; 너무 자주 병합하면 다양성이 감소하고, 너무 드물게 병합하면 이점이 사라진다.
  • 모델 별 특성: 이득은 모델 패밀리마다 다르게 나타나며, 일부 작은 모델은 개선 폭이 미미해 한계 효과가 존재한다.
  • 향후 방향: 저자는 동적으로 K를 조정하는 적응형 병렬성, 토큰 엔트로피 기반 스마트 동기화 휴리스틱, 그리고 런타임 오버헤드를 줄이기 위한 파인튜닝 단계에서의 로짓 평균 적용 등을 제안한다.

ThinkMerge는 추론 시점에 약간의 병렬성을 도입함으로써 개방형 추론 작업에서 눈에 띄는 성능 향상을 이끌어낼 수 있음을 보여준다—다음 세대 AI 어시스턴트와 코드 생성 도구를 구축하는 개발자들에게 실용적이고 낮은 진입 장벽의 업그레이드 경로를 제공한다.

Authors

  • Haonan Wang
  • Chao Du
  • Kenji Kawaguchi
  • Tianyu Pang

Paper Information

  • arXiv ID: 2512.02874v1
  • Categories: cs.CL
  • Published: December 2, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Multi-LLM 협업을 통한 약물 추천

보건 의료가 확장 가능하고 신뢰할 수 있는 clinical decision support를 위해 AI를 점점 더 활용함에 따라, 모델 추론의 신뢰성을 보장하는 것이 여전히 중요한 과제로 남아 있습니다.