[Paper] ThetaEvolve: 테스트 시 학습 on Open Problems

발행: 2개월 전 (2025년 11월 29일 오전 03:58 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2511.23473v1

Overview

ThetaEvolve는 단일 대형 언어 모델(LLM)이 문제를 풀면서 학습하도록 하는 오픈‑소스 프레임워크입니다. 테스트‑타임 인‑컨텍스트 학습과 강화학습(RL) 업데이트를 결합함으로써 모델은 자체 문제 해결 전략을 반복적으로 개선하고, 원형 포장(circle packing) 및 최초 자동 상관 부등식(first auto‑correlation inequality)과 같은 고전적인 도전 과제에서 사상 최고 기록을 달성할 수 있습니다.

Key Contributions

Unified test‑time learning loop: 인‑컨텍스트 프롬프트와 RL 업데이트를 하나의 파이프라인으로 통합하여 추론 시에 실행합니다.
Single‑model efficiency: 8 억 파라미터 오픈‑소스 모델(DeepSeek‑R1‑0528‑Qwen3‑8B)이 AlphaEvolve에서 사용된 훨씬 큰 폐쇄형 앙상블보다 뛰어난 성능을 보임을 입증했습니다.
Scalable exploration: 방대한 프로그램 데이터베이스와 배치 샘플링을 도입해 탐색 중 처리량을 크게 증가시켰습니다.
Stability tricks: 반복적인 출력을 억제하는 lazy penalty와 선택적 reward shaping을 구현해 RL 신호를 부드럽게 만들었습니다.
Generalization evidence: RL로 학습된 체크포인트가 학습된 과제에서 뛰어날 뿐만 아니라 보지 못한 새로운 문제에도 전이된다는 증거를 제시했습니다.

Methodology

Program Database – 후보 프로그램(예: 수학적 구성)의 선별된 컬렉션을 오프라인에 저장합니다. LLM은 각 시도마다 이 풀(pool)에서 샘플링합니다.
In‑Context Prompting – 각 배치마다 모델은 현재 최고 솔루션, 최근 몇 차례 시도, 그리고 문제 정의를 포함한 프롬프트를 받습니다. 이를 통해 모델은 “무엇이 효과적이었고 무엇이 아니었는지”를 추론합니다.
Batch Sampling – 단일 순차 탐색 대신 ThetaEvolve는 다수의 후보를 병렬로 뽑아 LLM에 전달해 처리량을 높입니다.
Reward Computation – 생성된 각 프로그램을 실행하거나 분석적으로 평가해 수치 보상(예: 더 높은 포장 밀도)을 계산합니다.
Lazy Penalties – 배치 내에서 중복되거나 정체된 솔루션이 나오면 작은 페널티를 보상에 추가해 모델이 새로운 해법을 찾도록 유도합니다.
RL Update at Test Time – 경량 정책 그래디언트 알고리즘(예: REINFORCE)을 사용해 더 높은 보상을 얻은 행동 쪽으로 파라미터를 미세 조정합니다. 이 과정은 모델이 추론 요청을 처리하면서 동시에 진행됩니다.
Optional Reward Shaping – 특히 노이즈가 큰 과제의 경우, 이동 평균 기반 베이스라인과 같은 부드러운 보상 형태를 제공해 분산을 감소시킬 수 있습니다.

전체 루프는 정지 기준(시간 예산 또는 수렴)까지 반복되며, 모델이 실시간으로 자체 해결 전략을 “진화”시킬 수 있게 합니다.

Results & Findings

Record bounds: 8 B 파라미터 모델을 사용한 ThetaEvolve가 두 벤치마크 문제(원형 포장 및 최초 자동 상관 부등식)에서 AlphaEvolve의 최고 기록을 능가했습니다.
Consistent gains: 두 개의 LLM과 네 개의 오픈‑엔드 과제 전반에 걸쳐 RL‑강화 버전이 순수 추론 베이스라인보다 최종 보상이 10‑30 % 향상되었습니다.
Faster convergence: RL‑학습 체크포인트가 베이스라인보다 적은 반복 횟수로 고품질 솔루션에 도달했으며, 이는 모델이 유용한 휴리스틱을 내부화했음을 시사합니다.
Cross‑task transfer: 한 문제에 대해 미세 조정된 체크포인트가 이전에 보지 못한 다른 문제에서도 성능이 향상되어, 학습된 “진화적” 행동이 어느 정도 일반성을 갖는다는 점을 보여줍니다.

Practical Implications

Cost‑effective research: 소규모 오픈‑소스 모델도 이제 거대한 폐쇄형 앙상블과 경쟁할 수 있어, 학계와 산업계가 자동 정리 증명이나 조합 최적화를 탐구하는 장벽이 낮아집니다.
Continuous improvement services: 개발자는 ThetaEvolve를 SaaS 플랫폼에 내장해 사용자가 제출한 과제로부터 모델이 지속적으로 학습하도록 할 수 있으며, 재학습 없이도 점점 더 나은 솔루션을 제공할 수 있습니다.
Automated design pipelines: 칩 레이아웃, 재료 포장, 신호 처리 등에서 흔히 마주하는 개방형 최적화 문제에 대해 ThetaEvolve는 배포 중 자체 튜닝이 가능한 플러그‑앤‑플레이 옵티마이저 역할을 할 수 있습니다.
Open‑source ecosystem: 공개된 코드와 프로그램 데이터베이스는 커뮤니티 기여를 장려하며, 협업 “진화 AI” 생태계를 조성합니다.

Limitations & Future Work

Scalability ceiling: 배치 샘플링이 처리량을 높이지만, 여전히 많은 후보 프로그램을 실행해야 하므로 비용이 많이 드는 평가에서는 병목이 될 수 있습니다.
Reward noise: 목표가 노이즈가 많거나 정확히 계산하기 어려운 경우, lazy‑penalty와 shaping 기법에도 불구하고 RL 업데이트가 불안정해질 수 있습니다.
Model size trade‑offs: 현재 성공은 8 B 파라미터 모델에 한정되어 있으며, 훨씬 작은 모델이나 수십 억 파라미터 규모로의 확장 가능성은 아직 미확인 상태입니다.
Generalization scope: 완전히 다른 분야(예: 기호 적분)로의 전이는 체계적인 연구가 필요합니다. 향후 작업에서는 다양한 문제군에 대한 메타‑러닝을 탐색하고, 호기심 기반 샘플링과 같은 정교한 탐색 전략을 통합할 수 있습니다.

ThetaEvolve는 개발자들이 LLM의 적응력을 활용해 개방형, 수학적으로 복잡한 과제를 해결할 수 있는 실용적인 경로를 제시합니다—추론 전용 모델을 스스로 개선되는 문제 해결자로 전환합니다.

Authors

Yiping Wang
Shao‑Rong Su
Zhiyuan Zeng
Eva Xu
Liliang Ren
Xinyu Yang
Zeyi Huang
Xuehai He
Luyao Ma
Baolin Peng
Hao Cheng
Pengcheng He
Weizhu Chen
Shuohang Wang
Simon Shaolei Du
Yelong Shen

Paper Information

arXiv ID: 2511.23473v1
Categories: cs.LG, cs.CL
Published: November 28, 2025
PDF: Download PDF

[Paper] ThetaEvolve: 테스트 시 학습 on Open Problems

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] MegaChat: 고품질 영업 챗봇 평가를 위한 합성 페르시아어 Q&A 데이터셋

[Paper] 구조화된 Knowledge Discovery Approach를 통한 Language Model Generation의 Interpretability 향상

[Paper] 모든 토큰이 중요하다: 16M Ultra-Long Context 일반화 in Large Language Models

[Paper] 자동 안전 운전 지시를 향한: 대규모 Vision Language Model 접근