[Paper] ImprovEvolve: AlphaEvolve에 입력 솔루션을 개선하도록 요청하고 즉흥 연주

발행: 2일 전 (2026년 2월 11일 오전 04:23 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.10233v1

개요

논문에서는 ImprovEvolve 라는 경량 확장을 AlphaEvolve 프레임워크에 도입하여 대형 언어 모델(LLM)이 “스마트” 최적화기로 작동하도록 합니다. 전체 솔루션을 생성하는 프로그램을 진화시키는 대신, 저자들은 three‑method interface—init(), improve(), perturb()—를 진화시켜 솔루션을 초기화하고, 개선하며, 인접 후보들을 탐색할 수 있게 합니다. 이러한 전환은 LLM의 추론 부담을 크게 줄이고, 고전적인 기하학적 포장 및 부등식 최적화 벤치마크에서 새로운 최첨단 결과를 얻었습니다.

주요 기여

프로그램 수준 추상화: 진화 목표를 전체 솔루션 스크립트에서 고정된 API를 가진 재사용 가능한 “개선 엔진”으로 재정의합니다.
LLM 친화적 설계: LLM에 대한 인지 부하를 (세 가지 명확히 정의된 메서드만) 제한함으로써 진화 과정이 보다 안정적이고 데이터 효율적이 됩니다.
실증적 돌파구:
- 11, 12, 15, 16개의 육각형 인 육각형 사례에 대한 새로운 최고 알려진 패킹과 14, 17, 23개의 육각형에 대해 약간의 인간 조정 후 추가적인 향상.
- 두 번째 자기상관 부등식에 대한 하한을 개선 (0.96258 vs. AlphaEvolve의 0.96102).
간단한 통합: ImprovEvolve는 최소한의 코드 변경으로 어떤 AlphaEvolve 스타일 파이프라인에도 쉽게 삽입될 수 있습니다.

Methodology

Interface definition – 진화된 프로그램은 세 가지 메서드를 제공하는 Python 클래스(또는 동등한 구조)를 구현해야 합니다:
- init() → solution – 유효한 시작점을 반환합니다.
- improve(solution) → better_solution – 적합도를 절대 악화시키지 않는 결정론적 또는 확률적 개선을 수행합니다.
- perturb(solution, intensity) → new_solution – 탐색을 위해 제어된 무작위성을 주입합니다.
Evolutionary loop – 외부 옵티마이저(여전히 LLM에 의해 구동)는 인터페이스를 만족하는 프로그램들을 탐색합니다. 적합도는 init 출력에 improve와 perturb를 반복 적용하고, 강도가 감소하는 스케줄(시뮬레이티드 어닐링과 유사)을 따르는 방식으로 측정됩니다.
LLM prompting – LLM은 세 메서드 계약에 대한 간결한 설명과 몇 가지 예시 구현을 받습니다. 그런 다음 최종 솔루션 품질에서 파생된 보상 신호에 따라 코드를 변형하거나 재작성합니다.
Human‑in‑the‑loop polishing – 자동 진화가 완료된 후, 개발자는 작은 편집(예: 하이퍼파라미터 조정이나 가드 절 추가)을 통해 종종 추가 성능 향상을 얻을 수 있습니다.

결과 및 발견

Benchmark	이전 AlphaEvolve 최고	ImprovEvolve (자동)	ImprovEvolve + 작은 인간 편집
Hexagon packing (11)	–	새로운 최첨단	–
Hexagon packing (12)	–	새로운 최첨단	–
Hexagon packing (15)	–	새로운 최첨단	–
Hexagon packing (16)	–	새로운 최첨단	–
Hexagon packing (14)	–	–	개선됨
Hexagon packing (17)	–	–	개선됨
Hexagon packing (23)	–	–	개선됨
Second autocorrelation inequality	0.96102	–	0.96258 (새로운 하한)

이 숫자들은 프로그램 표현을 단순히 재구성하는 것만으로도 동일한 LLM에서 더 많은 “지식” 을 추출할 수 있음을 보여주며, 이전에 대규모 프롬프트 엔지니어링이나 더 긴 탐색 예산이 필요했던 문제들의 최첨단을 한 단계 끌어올립니다.

Practical Implications

Faster prototyping of optimization pipelines – 개발자는 작은 스캐폴딩 클래스를 LLM에 넘겨 도메인‑특화 문제(예: 레이아웃 생성, 회로 배치, 하이퍼파라미터 튜닝)를 위한 맞춤형 옵티마이저를 발견하게 할 수 있습니다.
Reduced prompt length & cost – LLM이 세 개의 간결한 메서드만을 고려하면 되므로 토큰 사용량이 크게 감소하고, 클라우드 기반 LLM 서비스의 API 비용이 낮아집니다.
Modular, reusable code – improve/perturb 패턴은 언어에 구애받지 않으며 라이브러리 컴포넌트로 내보낼 수 있어, 하위 프로젝트가 진화 검색을 다시 실행하지 않고도 학습된 옵티마이저를 호출할 수 있습니다.
Hybrid human‑LLM workflows – 최소한의 수동 편집만으로도 큰 성과를 얻을 수 있어, 어려운 조합 최적화 작업에 “LLM‑first, developer‑second” 워크플로우를 적용하는 것이 실용적입니다.
Potential for AutoML extensions – ImprovEvolve 접근 방식은 단일 모델이 아니라 빠르고 적응 가능한 탐색 연산자를 필요로 하는 자동 머신러닝 파이프라인과 잘 맞습니다.

제한 사항 및 향후 연구

도메인 특수성 – 현재 실험은 기하학적 포장 및 분석적 부등식에 초점을 맞추고 있으며; 더 넓은 도메인(예: 이산 스케줄링, 신경망 구조 탐색)에서는 더 풍부한 인터페이스가 필요할 수 있습니다.
LLM 의존성 – 품질은 여전히 기본 LLM의 코드 합성 능력에 달려 있으며; 오래되거나 작은 모델은 기능적인 improve 메서드를 생성하는 데 어려움을 겪을 수 있습니다.
탐색 예산 확장성 – 반복당 토큰 사용량은 낮지만, 외부 진화 루프는 매우 고차원 문제에서는 여전히 계산 비용이 많이 들 수 있습니다.
인간 편집 의존 – 최상의 결과는 “약간 인간이 편집한” 버전을 필요로 했으며, 이는 완전 자동 성능이 아직 달성되지 않았음을 시사합니다.

향후 연구에서는 perturb 스케줄의 자동 하이퍼파라미터 튜닝, 다목적 확장(예: 실행 시간과 품질의 균형) 및 세 메서드 계약을 다른 프로그래밍 언어 또는 저수준 코드(C/C++)에 적용하는 것을 탐색할 수 있습니다.

저자

Alexey Kravatskiy
Valentin Khrulkov
Ivan Oseledets

논문 정보

arXiv ID: 2602.10233v1
카테고리: cs.NE, cs.AI, math.CA, math.MG, math.OC
출판일: 2026년 2월 10일
PDF: PDF 다운로드

[Paper] ImprovEvolve: AlphaEvolve에 입력 솔루션을 개선하도록 요청하고 즉흥 연주

개요

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] Scaling Verification이 Vision-Language-Action Alignment을 위해 Scaling Policy Learning보다 더 효과적일 수 있다

[Paper] UniT: 통합 멀티모달 Chain-of-Thought Test-time Scaling

[Paper] MonarchRT: 실시간 비디오 생성을 위한 효율적인 어텐션

[Paper] 시계열 데이터에 대한 Flow-Guided Neural Operator 기반 Self‑Supervised Learning