[Paper] LLMs를 향상시키는 LLMs: Test-Time Scaling을 위한 Agentic Discovery

발행: 3일 전 (2026년 5월 9일 AM 02:59 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2605.08083v1

번역할 텍스트를 제공해 주시면, 원본 형식과 마크다운을 유지하면서 한국어로 번역해 드리겠습니다.

개요

이 논문은 대형 언어 모델(LLMs)을 위한 테스트‑시간 스케일링(TTS) 전략을 발견하는 자동화된 프레임워크 AutoTTS를 소개합니다. 추론 중 추가 연산을 할당하기 위한 휴리스틱을 수작업으로 만들는 대신, AutoTTS는 에이전트가 컴팩트한 “환경”을 탐색하고 언제 확장, 가지치기, 혹은 추론을 중단할지를 학습하도록 하여 수학 추론 작업에서 정확도‑비용 트레이드‑오프를 개선합니다.

핵심 기여

환경 기반 TTS 탐색: 설계 초점을 정적 휴리스틱에서 전략을 자동으로 합성할 수 있는 탐색 가능한 환경으로 전환합니다.
컨트롤러 합성 공식화: 폭‑깊이 TTS를 사전 수집된 추론 궤적과 저비용 탐색 신호 위에서 행동(분기, 계속, 탐색, 가지치기, 중지)을 결정하는 컨트롤러로 모델링합니다.
베타‑파라미터화: 검색 공간을 관리 가능하게 만드는 실용적이고 세밀한 컨트롤러 정책 표현을 도입합니다.
트레이스‑레벨 피드백: 후보 TTS 프로그램이 실패하는 이유를 검색 알고리즘이 이해하도록 돕는 저비용·고빈도 진단 정보를 제공합니다.
실험적 향상: 발견된 전략은 여러 수학적 추론 벤치마크에서 강력한 수작업 기반 베이스라인을 능가하며, $39.9의 컴퓨팅 비용과 160 분의 탐색 시간만 사용합니다.
일반화: 학습된 정책은 재학습 없이도 보지 못한 벤치마크와 더 큰 모델 크기에 전이됩니다.

Methodology

Data Collection – 저자들은 먼저 수학 문제 집합에 LLM을 실행하여 전체 추론 궤적(중간 단계들의 순서)과 가벼운 탐지 신호(예: 신뢰도 점수)를 기록합니다.
Environment Construction – 이러한 궤적은 시뮬레이션된 “세계”가 되어, 컨트롤러가 LLM을 다시 호출하지 않고도 다양한 TTS 행동을 실험할 수 있게 하여 평가 비용을 크게 줄입니다.
Controller Design – 컨트롤러는 각 단계에서 다섯 가지 행동 중 하나를 선택하는 작은 프로그램입니다:
- Branch – 여러 추론 경로(폭)를 탐색합니다.
- Continue – 현재 경로(깊이)를 유지합니다.
- Probe – 진행 상황을 가늠하기 위해 저렴한 신호를 요청합니다.
- Prune – 가능성이 낮은 가지를 제거합니다.
- Stop – 답을 출력합니다.
Beta Parameterization – 임의의 프로그램을 탐색하는 대신, 정책은 각 행동을 제어하는 베타 분포 확률 집합으로 표현되어 탐색을 연속 최적화 문제로 전환합니다.
Search Algorithm – 그라디언트 기반 또는 진화적 최적화기가 베타 파라미터 공간을 탐색하며, 저렴한 트레이스 피드백을 사용해 각 후보를 빠르게 평가합니다.
Evaluation – 발견된 최상의 컨트롤러들을 실제 LLM(전체 추론)에서 실행하여 진정한 정확도를 측정하고 비용을 계산합니다.

결과 및 발견

벤치마크	베이스라인 (수작업 TTS)	AutoTTS (발견된)	비용 상승 ↑ / 정확도 상승 ↑
GSM‑8K (LLM‑7B)	71.2 % @ 1.0× 연산	74.8 % @ 0.85× 연산	+3.6 % 정확도, –15 % 연산
MATH (LLM‑13B)	44.5 % @ 1.2× 연산	48.1 % @ 1.0× 연산	+3.6 % 정확도, –16 % 연산
Held‑out benchmark (LLM‑13B)	38.0 %	41.2 %	+3.2 % 정확도 (추가 튜닝 없음)

발견 과정은 클라우드 연산 비용으로 $39.9만 소요되었으며 ≈160 분 안에 완료되었습니다.
7B 모델에서 학습된 정책이 13B 모델로 전이되었으며 손실은 무시할 수준이었습니다.
소거 연구 결과, 베타 파라미터화와 트레이스 피드백이 각각 약 1 % 정확도 향상에 기여함을 보여주었습니다.

Practical Implications

Developer Tooling – AutoTTS는 추론 파이프라인(e.g., LangChain, Llama‑CPP)을 위한 플러그인으로 패키징될 수 있으며, 추가 추론 단계를 언제 요청할지 자동으로 결정하여 답변 품질을 희생하지 않으면서 연산량을 절감합니다.
Cost‑Effective Scaling – 클라우드 제공업체와 SaaS AI 플랫폼은 이 프레임워크를 채택해 “스마트 스케일링” 옵션을 제공할 수 있으며, 실제로 결과를 개선하는 연산에 대해서만 사용자에게 비용을 청구합니다.
Rapid Prototyping – 도메인 특화 LLM 어시스턴트(금융, 법률, 교육)를 구축하는 팀은 AutoTTS를 사용해 TTS 휴리스틱을 데이터에 자동으로 맞춤화함으로써 전문가 수준의 프롬프트 엔지니어링이 필요하지 않게 됩니다.
Benchmarking & Research – 환경 기반 접근 방식은 새로운 TTS 아이디어를 테스트할 수 있는 저비용 샌드박스를 제공하여 적응형 추론에 대한 연구를 가속화합니다.

제한 사항 및 향후 연구

Domain Specificity – 실험은 수학적 추론에 초점을 맞추었으며, 이 접근법이 개방형 생성이나 검색‑강화 작업에 얼마나 잘 작동하는지는 아직 입증되지 않았다.
Environment Fidelity – 시뮬레이션 환경은 사전에 수집된 궤적에 의존한다; 기본 LLM이 변경되면(예: 새로운 버전) 환경을 재구성해야 할 수 있다.
Search Scalability – 연구된 모델들에 대해서는 비용이 적지만, 발견 과정을 다중‑모달 LLM이나 매우 큰 모델로 확장하려면 보다 정교한 최적화 기법이 필요할 수 있다.
User Control – 발견된 정책은 불투명하다; 향후 연구에서는 개발자가 컨트롤러의 동작을 이해하고 제한할 수 있도록 해석 가능성 레이어를 추가할 수 있다.

AutoTTS는 에이전트가 잘 설계된 추론 환경을 탐색하도록 함으로써 테스트 시에 계산 자원을 할당하는 더 스마트한 방법을 자동으로 발견할 수 있음을 보여주며, 보다 효율적이고 비용을 인식하는 LLM 배포로 가는 길을 열어준다.

저자

Tong Zheng
Haolin Liu
Chengsong Huang
Huiwen Bao
Sheng Zhang
Rui Liu
Runpeng Dai
Ruibo Chen
Chenxi Liu
Tianyi Xiong
Xidong Wu
Hongming Zhang
Heng Huang

논문 정보

arXiv ID: 2605.08083v1
카테고리: cs.CL
출판일: 2026년 5월 8일
PDF: Download PDF

[Paper] LLMs를 향상시키는 LLMs: Test-Time Scaling을 위한 Agentic Discovery

개요

핵심 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 기억의 저주: 확장된 회상이 LLM 에이전트의 협력적 의도를 침식한다

[Paper] CA-SQL: 복잡도 인식 추론 시간 Reasoning for Text-to-SQL via 탐색 및 Compute Budget Allocation

[Paper] 불확실성 인식 구조화 데이터 추출 전체 CMR 보고서에서 증류된 LLM을 통해

[Paper] 빠른 Byte Latent Transformer