[Paper] LLMs를 향상시키는 LLMs: Test-Time Scaling을 위한 Agentic Discovery

발행: (2026년 5월 9일 AM 02:59 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2605.08083v1

번역할 텍스트를 제공해 주시면, 원본 형식과 마크다운을 유지하면서 한국어로 번역해 드리겠습니다.

개요

이 논문은 대형 언어 모델(LLMs)을 위한 테스트‑시간 스케일링(TTS) 전략을 발견하는 자동화된 프레임워크 AutoTTS를 소개합니다. 추론 중 추가 연산을 할당하기 위한 휴리스틱을 수작업으로 만들는 대신, AutoTTS는 에이전트가 컴팩트한 “환경”을 탐색하고 언제 확장, 가지치기, 혹은 추론을 중단할지를 학습하도록 하여 수학 추론 작업에서 정확도‑비용 트레이드‑오프를 개선합니다.

핵심 기여

  • 환경 기반 TTS 탐색: 설계 초점을 정적 휴리스틱에서 전략을 자동으로 합성할 수 있는 탐색 가능한 환경으로 전환합니다.
  • 컨트롤러 합성 공식화: 폭‑깊이 TTS를 사전 수집된 추론 궤적과 저비용 탐색 신호 위에서 행동(분기, 계속, 탐색, 가지치기, 중지)을 결정하는 컨트롤러로 모델링합니다.
  • 베타‑파라미터화: 검색 공간을 관리 가능하게 만드는 실용적이고 세밀한 컨트롤러 정책 표현을 도입합니다.
  • 트레이스‑레벨 피드백: 후보 TTS 프로그램이 실패하는 이유를 검색 알고리즘이 이해하도록 돕는 저비용·고빈도 진단 정보를 제공합니다.
  • 실험적 향상: 발견된 전략은 여러 수학적 추론 벤치마크에서 강력한 수작업 기반 베이스라인을 능가하며, $39.9의 컴퓨팅 비용과 160 분의 탐색 시간만 사용합니다.
  • 일반화: 학습된 정책은 재학습 없이도 보지 못한 벤치마크와 더 큰 모델 크기에 전이됩니다.

Methodology

  1. Data Collection – 저자들은 먼저 수학 문제 집합에 LLM을 실행하여 전체 추론 궤적(중간 단계들의 순서)과 가벼운 탐지 신호(예: 신뢰도 점수)를 기록합니다.
  2. Environment Construction – 이러한 궤적은 시뮬레이션된 “세계”가 되어, 컨트롤러가 LLM을 다시 호출하지 않고도 다양한 TTS 행동을 실험할 수 있게 하여 평가 비용을 크게 줄입니다.
  3. Controller Design – 컨트롤러는 각 단계에서 다섯 가지 행동 중 하나를 선택하는 작은 프로그램입니다:
    • Branch – 여러 추론 경로(폭)를 탐색합니다.
    • Continue – 현재 경로(깊이)를 유지합니다.
    • Probe – 진행 상황을 가늠하기 위해 저렴한 신호를 요청합니다.
    • Prune – 가능성이 낮은 가지를 제거합니다.
    • Stop – 답을 출력합니다.
  4. Beta Parameterization – 임의의 프로그램을 탐색하는 대신, 정책은 각 행동을 제어하는 베타 분포 확률 집합으로 표현되어 탐색을 연속 최적화 문제로 전환합니다.
  5. Search Algorithm – 그라디언트 기반 또는 진화적 최적화기가 베타 파라미터 공간을 탐색하며, 저렴한 트레이스 피드백을 사용해 각 후보를 빠르게 평가합니다.
  6. Evaluation – 발견된 최상의 컨트롤러들을 실제 LLM(전체 추론)에서 실행하여 진정한 정확도를 측정하고 비용을 계산합니다.

결과 및 발견

벤치마크베이스라인 (수작업 TTS)AutoTTS (발견된)비용 상승 ↑ / 정확도 상승 ↑
GSM‑8K (LLM‑7B)71.2 % @ 1.0× 연산74.8 % @ 0.85× 연산+3.6 % 정확도, –15 % 연산
MATH (LLM‑13B)44.5 % @ 1.2× 연산48.1 % @ 1.0× 연산+3.6 % 정확도, –16 % 연산
Held‑out benchmark (LLM‑13B)38.0 %41.2 %+3.2 % 정확도 (추가 튜닝 없음)
  • 발견 과정은 클라우드 연산 비용으로 $39.9만 소요되었으며 ≈160 분 안에 완료되었습니다.
  • 7B 모델에서 학습된 정책이 13B 모델로 전이되었으며 손실은 무시할 수준이었습니다.
  • 소거 연구 결과, 베타 파라미터화와 트레이스 피드백이 각각 약 1 % 정확도 향상에 기여함을 보여주었습니다.

Practical Implications

  • Developer Tooling – AutoTTS는 추론 파이프라인(e.g., LangChain, Llama‑CPP)을 위한 플러그인으로 패키징될 수 있으며, 추가 추론 단계를 언제 요청할지 자동으로 결정하여 답변 품질을 희생하지 않으면서 연산량을 절감합니다.
  • Cost‑Effective Scaling – 클라우드 제공업체와 SaaS AI 플랫폼은 이 프레임워크를 채택해 “스마트 스케일링” 옵션을 제공할 수 있으며, 실제로 결과를 개선하는 연산에 대해서만 사용자에게 비용을 청구합니다.
  • Rapid Prototyping – 도메인 특화 LLM 어시스턴트(금융, 법률, 교육)를 구축하는 팀은 AutoTTS를 사용해 TTS 휴리스틱을 데이터에 자동으로 맞춤화함으로써 전문가 수준의 프롬프트 엔지니어링이 필요하지 않게 됩니다.
  • Benchmarking & Research – 환경 기반 접근 방식은 새로운 TTS 아이디어를 테스트할 수 있는 저비용 샌드박스를 제공하여 적응형 추론에 대한 연구를 가속화합니다.

제한 사항 및 향후 연구

  • Domain Specificity – 실험은 수학적 추론에 초점을 맞추었으며, 이 접근법이 개방형 생성이나 검색‑강화 작업에 얼마나 잘 작동하는지는 아직 입증되지 않았다.
  • Environment Fidelity – 시뮬레이션 환경은 사전에 수집된 궤적에 의존한다; 기본 LLM이 변경되면(예: 새로운 버전) 환경을 재구성해야 할 수 있다.
  • Search Scalability – 연구된 모델들에 대해서는 비용이 적지만, 발견 과정을 다중‑모달 LLM이나 매우 큰 모델로 확장하려면 보다 정교한 최적화 기법이 필요할 수 있다.
  • User Control – 발견된 정책은 불투명하다; 향후 연구에서는 개발자가 컨트롤러의 동작을 이해하고 제한할 수 있도록 해석 가능성 레이어를 추가할 수 있다.

AutoTTS는 에이전트가 잘 설계된 추론 환경을 탐색하도록 함으로써 테스트 시에 계산 자원을 할당하는 더 스마트한 방법을 자동으로 발견할 수 있음을 보여주며, 보다 효율적이고 비용을 인식하는 LLM 배포로 가는 길을 열어준다.

저자

  • Tong Zheng
  • Haolin Liu
  • Chengsong Huang
  • Huiwen Bao
  • Sheng Zhang
  • Rui Liu
  • Runpeng Dai
  • Ruibo Chen
  • Chenxi Liu
  • Tianyi Xiong
  • Xidong Wu
  • Hongming Zhang
  • Heng Huang

논문 정보

  • arXiv ID: 2605.08083v1
  • 카테고리: cs.CL
  • 출판일: 2026년 5월 8일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 빠른 Byte Latent Transformer

최근 바이트 수준 언어 모델(LM)은 서브워드 어휘에 의존하지 않으면서 토큰 수준 모델의 성능과 일치하지만, 그 유용성은 slo...