[Paper] ThetaEvolve: 테스트 시 학습 on Open Problems
Source: arXiv - 2511.23473v1
Overview
ThetaEvolve는 단일 대형 언어 모델(LLM)이 문제를 풀면서 학습하도록 하는 오픈‑소스 프레임워크입니다. 테스트‑타임 인‑컨텍스트 학습과 강화학습(RL) 업데이트를 결합함으로써 모델은 자체 문제 해결 전략을 반복적으로 개선하고, 원형 포장(circle packing) 및 최초 자동 상관 부등식(first auto‑correlation inequality)과 같은 고전적인 도전 과제에서 사상 최고 기록을 달성할 수 있습니다.
Key Contributions
- Unified test‑time learning loop: 인‑컨텍스트 프롬프트와 RL 업데이트를 하나의 파이프라인으로 통합하여 추론 시에 실행합니다.
- Single‑model efficiency: 8 억 파라미터 오픈‑소스 모델(DeepSeek‑R1‑0528‑Qwen3‑8B)이 AlphaEvolve에서 사용된 훨씬 큰 폐쇄형 앙상블보다 뛰어난 성능을 보임을 입증했습니다.
- Scalable exploration: 방대한 프로그램 데이터베이스와 배치 샘플링을 도입해 탐색 중 처리량을 크게 증가시켰습니다.
- Stability tricks: 반복적인 출력을 억제하는 lazy penalty와 선택적 reward shaping을 구현해 RL 신호를 부드럽게 만들었습니다.
- Generalization evidence: RL로 학습된 체크포인트가 학습된 과제에서 뛰어날 뿐만 아니라 보지 못한 새로운 문제에도 전이된다는 증거를 제시했습니다.
Methodology
- Program Database – 후보 프로그램(예: 수학적 구성)의 선별된 컬렉션을 오프라인에 저장합니다. LLM은 각 시도마다 이 풀(pool)에서 샘플링합니다.
- In‑Context Prompting – 각 배치마다 모델은 현재 최고 솔루션, 최근 몇 차례 시도, 그리고 문제 정의를 포함한 프롬프트를 받습니다. 이를 통해 모델은 “무엇이 효과적이었고 무엇이 아니었는지”를 추론합니다.
- Batch Sampling – 단일 순차 탐색 대신 ThetaEvolve는 다수의 후보를 병렬로 뽑아 LLM에 전달해 처리량을 높입니다.
- Reward Computation – 생성된 각 프로그램을 실행하거나 분석적으로 평가해 수치 보상(예: 더 높은 포장 밀도)을 계산합니다.
- Lazy Penalties – 배치 내에서 중복되거나 정체된 솔루션이 나오면 작은 페널티를 보상에 추가해 모델이 새로운 해법을 찾도록 유도합니다.
- RL Update at Test Time – 경량 정책 그래디언트 알고리즘(예: REINFORCE)을 사용해 더 높은 보상을 얻은 행동 쪽으로 파라미터를 미세 조정합니다. 이 과정은 모델이 추론 요청을 처리하면서 동시에 진행됩니다.
- Optional Reward Shaping – 특히 노이즈가 큰 과제의 경우, 이동 평균 기반 베이스라인과 같은 부드러운 보상 형태를 제공해 분산을 감소시킬 수 있습니다.
전체 루프는 정지 기준(시간 예산 또는 수렴)까지 반복되며, 모델이 실시간으로 자체 해결 전략을 “진화”시킬 수 있게 합니다.
Results & Findings
- Record bounds: 8 B 파라미터 모델을 사용한 ThetaEvolve가 두 벤치마크 문제(원형 포장 및 최초 자동 상관 부등식)에서 AlphaEvolve의 최고 기록을 능가했습니다.
- Consistent gains: 두 개의 LLM과 네 개의 오픈‑엔드 과제 전반에 걸쳐 RL‑강화 버전이 순수 추론 베이스라인보다 최종 보상이 10‑30 % 향상되었습니다.
- Faster convergence: RL‑학습 체크포인트가 베이스라인보다 적은 반복 횟수로 고품질 솔루션에 도달했으며, 이는 모델이 유용한 휴리스틱을 내부화했음을 시사합니다.
- Cross‑task transfer: 한 문제에 대해 미세 조정된 체크포인트가 이전에 보지 못한 다른 문제에서도 성능이 향상되어, 학습된 “진화적” 행동이 어느 정도 일반성을 갖는다는 점을 보여줍니다.
Practical Implications
- Cost‑effective research: 소규모 오픈‑소스 모델도 이제 거대한 폐쇄형 앙상블과 경쟁할 수 있어, 학계와 산업계가 자동 정리 증명이나 조합 최적화를 탐구하는 장벽이 낮아집니다.
- Continuous improvement services: 개발자는 ThetaEvolve를 SaaS 플랫폼에 내장해 사용자가 제출한 과제로부터 모델이 지속적으로 학습하도록 할 수 있으며, 재학습 없이도 점점 더 나은 솔루션을 제공할 수 있습니다.
- Automated design pipelines: 칩 레이아웃, 재료 포장, 신호 처리 등에서 흔히 마주하는 개방형 최적화 문제에 대해 ThetaEvolve는 배포 중 자체 튜닝이 가능한 플러그‑앤‑플레이 옵티마이저 역할을 할 수 있습니다.
- Open‑source ecosystem: 공개된 코드와 프로그램 데이터베이스는 커뮤니티 기여를 장려하며, 협업 “진화 AI” 생태계를 조성합니다.
Limitations & Future Work
- Scalability ceiling: 배치 샘플링이 처리량을 높이지만, 여전히 많은 후보 프로그램을 실행해야 하므로 비용이 많이 드는 평가에서는 병목이 될 수 있습니다.
- Reward noise: 목표가 노이즈가 많거나 정확히 계산하기 어려운 경우, lazy‑penalty와 shaping 기법에도 불구하고 RL 업데이트가 불안정해질 수 있습니다.
- Model size trade‑offs: 현재 성공은 8 B 파라미터 모델에 한정되어 있으며, 훨씬 작은 모델이나 수십 억 파라미터 규모로의 확장 가능성은 아직 미확인 상태입니다.
- Generalization scope: 완전히 다른 분야(예: 기호 적분)로의 전이는 체계적인 연구가 필요합니다. 향후 작업에서는 다양한 문제군에 대한 메타‑러닝을 탐색하고, 호기심 기반 샘플링과 같은 정교한 탐색 전략을 통합할 수 있습니다.
ThetaEvolve는 개발자들이 LLM의 적응력을 활용해 개방형, 수학적으로 복잡한 과제를 해결할 수 있는 실용적인 경로를 제시합니다—추론 전용 모델을 스스로 개선되는 문제 해결자로 전환합니다.
Authors
- Yiping Wang
- Shao‑Rong Su
- Zhiyuan Zeng
- Eva Xu
- Liliang Ren
- Xinyu Yang
- Zeyi Huang
- Xuehai He
- Luyao Ma
- Baolin Peng
- Hao Cheng
- Pengcheng He
- Weizhu Chen
- Shuohang Wang
- Simon Shaolei Du
- Yelong Shen
Paper Information
- arXiv ID: 2511.23473v1
- Categories: cs.LG, cs.CL
- Published: November 28, 2025
- PDF: Download PDF