[Paper] 남아 있는 것은 모두 사실이어야 한다: 필터링이 LLM의 추론을 이끌고 다양성을 형성한다

발행: (2025년 12월 6일 오전 03:56 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.05962v1

Overview

논문 “Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity”는 추론 작업에 대형 언어 모델(LLM)을 미세조정하기 위해 강화학습(RL)을 주로 사용하는 기존 방식을 비판한다. 저자들은 RL의 mode‑seeking 역 KL 발산을 암묵적으로 최적화하는 것이 모델 출력의 다양성을 붕괴시킬 수 있음을 보여주고, 정밀도와 커버리지를 직접 균형 맞추는 필터링 기반 접근법을 제안한다.

Key Contributions

  • 필터링을 통한 명시적 목표 분포 – 잘못된 답을 제거하면서 모든 정답 솔루션의 상대적 확률은 유지한다.
  • α‑divergence 프레임워크 – mode‑seeking(역 KL)과 mass‑covering(정방 KL) 목표를 통합하여 정밀도와 다양성 사이를 하나의 파라미터로 조정할 수 있다.
  • Pareto‑optimal 커버리지‑정밀도 트레이드‑오프 – Lean 정리 증명 벤치마크에서 최첨단 결과를 달성했으며, 특히 다양한 정답(증명)을 생성하는 커버리지를 크게 향상시킨다.
  • 이론적 통찰 – RL로 미세조정된 LLM에서 다양성이 감소하는 현상을 역 KL의 “zero‑forcing” 특성과 연결짓고, 원칙적인 대안을 제시한다.

Methodology

  1. 후보 풀 수집 – 사전 학습된 LLM으로부터 가능한 답변(예: 증명 단계)의 대규모 집합을 생성한다.
  2. 잘못된 답 필터링 – 외부 검증기(정리 증명기 또는 분류기)를 사용해 올바른 후보만 남긴다. 남은 집합이 목표 분포를 정의한다: 각 정답은 원래의 상대적 가능성을 유지한다.
  3. α‑divergence로 목표 근사 – 현재 모델 출력 분포와 필터링된 목표 분포 사이의 α‑divergence를 최소화하도록 LLM을 학습한다.
    • α → 0 일 때, 목표는 정방 KL(대량 커버리지 → 높은 다양성)과 유사하게 동작한다.
    • α → 1 일 때, 목표는 역 KL(모드 탐색 → 높은 정밀도)과 유사하게 동작한다.
    • 중간 α 값은 사용자가 원하는 균형을 조정할 수 있게 한다.
  4. 최적화 – 저자들은 간단한 확률적 경사 하강법 루프를 사용한다. 모델에서 샘플링하고, α‑divergence 기울기로 가중치를 재조정한 뒤 파라미터를 업데이트한다. 별도의 RL 보상 설계나 정책 기울기 트릭은 필요하지 않다.

Results & Findings

  • 커버리지 향상: Lean 정리 증명 스위트에서 제안된 방법은 기존 최고 RL 기반 베이스라인보다 30 % 더 많은 서로 다른 정답 증명을 생성한다.
  • 정밀도 유지: 커버리지를 높였음에도 불구하고 정답률은 RL 방법과 비슷하게 유지되어, 제어 가능한 트레이드‑오프를 확인한다.
  • Pareto 프론티어: α 값을 변화시켜 얻은 곡선은 이전 접근법을 모두 지배한다—주어진 정밀도 수준에서 더 높은 커버리지를 동시에 달성하는 방법은 없다.
  • 소거 실험: 필터링 단계를 제거하면 성능이 RL과 유사하게 붕괴되어, 명시적 목표 분포의 중요성을 강조한다.

Practical Implications

  • 보다 견고한 코드 생성 도구 – 개발자는 더 풍부한 유효 코드 조각이나 질의 재작성 결과를 얻을 수 있어 반복 프롬프트 필요성이 감소한다.
  • 자동 정리 증명 및 형식 검증 – 높은 커버리지는 검증기가 동시에 더 많은 증명 전략을 탐색할 수 있게 하여 검증 파이프라인을 가속한다.
  • 챗봇 답변 다양성 – 고객 지원 봇이 정확성을 희생하지 않고 여러 올바른 솔루션(예: 문제 해결 단계)을 제시함으로써 사용자 경험을 향상시킨다.
  • 간소화된 미세조정 파이프라인 – α‑divergence 접근법은 RL(보상 설계, 정책 기울기 분산 감소)에서 발생하는 엔지니어링 오버헤드를 피하므로 기존 MLOps 워크플로에 쉽게 통합할 수 있다.

Limitations & Future Work

  • 신뢰할 수 있는 필터에 대한 의존 – 외부 검증기가 정답과 오답을 정확히 구분할 수 있어야 하며, 노이즈가 많은 필터는 목표 분포를 악화시킬 수 있다.
  • 후보 생성의 확장성 – 매우 큰 어휘나 장문 작업에서 후보 풀을 대규모로 생성하는 비용이 많이 들 수 있다.
  • 벤치마크 범위 – 실험은 Lean 정리 증명 벤치마크에 집중했으며, 코드 합성, 수학 문제 해결, 자연어 추론 등으로의 확장은 아직 진행되지 않았다.
  • 향후 방향 – 저자들은 적응형 α 스케줄 탐색, 학습된 필터(예: 자기 일관 모델) 통합, 다중 모달 추론 작업에의 적용 등을 제안한다.

Authors

  • Germán Kruszewski
  • Pierre Erbacher
  • Jos Rozen
  • Marc Dymetman

Paper Information

  • arXiv ID: 2512.05962v1
  • Categories: cs.LG, cs.AI
  • Published: December 5, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »