[Paper] 진화하는 탁월함: LLM 기반 에이전트의 자동 최적화

발행: 2개월 전 (2025년 12월 10일 오전 05:48 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2512.09108v1

개요

이 논문은 ARTEMIS라는 코드‑없는 진화‑검색 플랫폼을 소개한다. ARTEMIS는 대형 언어 모델(LLM) 에이전트의 프롬프트, 도구 설명, temperature 등 수많은 구성 요소를 자동으로 튜닝하여 실제 성능을 향상시킨다. 에이전트의 구성을 유전체로 간주하고 의미‑인식 유전 연산자를 사용해 진화시키면, “베어‑본즈” 에이전트를 벤치마크 스크립트와 자연어 목표만을 입력으로 고성능 시스템으로 변환할 수 있다.

주요 기여

모든 구성 가능한 요소(프롬프트, 도구 사양, 하이퍼파라미터)의 공동, 종단‑간 최적화를 수행하여 개별 최적화와 차별화한다.
의미‑인식 유전 연산자를 도입해 프롬프트와 도구 설명의 구조를 보존하면서 의미 있는 변이와 교차를 가능하게 한다.
코드‑없는 워크플로: 사용자는 벤치마크 스크립트와 목표 설명만 제공하면, ARTEMIS가 구성 가능한 노브를 자동으로 발견하고 로그에서 성능 신호를 추출하며 진화 루프를 자동으로 실행한다.
다양한 네 개 에이전트(경쟁 프로그래밍, 코드 최적화, 비용‑인식 추론, 교육 봇)에 대한 폭넓은 실증 검증을 통해 1자리 수에서 30 % 이상까지 향상을 입증한다.
모델‑비종속성: 상용 API(GPT‑4 등)와 로컬에서 실행되는 오픈소스 모델(Qwen2.5‑7B) 모두에서 동작한다.

방법론

구성 발견 – ARTEMIS는 제공된 에이전트 코드를 파싱해 사용자에게 노출된 모든 파라미터(프롬프트 템플릿, 도구 스키마, temperature, max‑tokens 등)를 찾아낸다.
피트니스 추출 – 각 에이전트 실행은 로그를 생성하고, 도메인‑특정 메트릭(수락률, 실행 시간, 토큰 사용량, 정확도 등)이 자동으로 추출되어 피트니스 점수로 활용된다.
진화 루프
- 개체군 초기화 – 각 구성 가능한 노브에 대해 합리적인 범위 내에서 무작위 값을 샘플링한다.
- 선택 – 상위 성능 개체를 엘리트 방식으로 유지하고, 나머지는 확률적으로 교배 대상에 선정한다.
- 의미‑인식 변이 – 프롬프트의 단어/구를 동의어로 교체하거나, 도구 인자를 재배열하거나, 숫자형 하이퍼파라미터를 조정하되 구문적 유효성을 유지한다.
- 교차 – 두 부모 구성에서 전체 프롬프트 블록이나 도구 정의를 교환해 자손을 생성하고, 실행 가능성을 보장한다.
- 평가 – 벤치마크 스크립트에서 에이전트를 실행하고 피트니스를 수집한 뒤, 고정된 세대 수 혹은 수렴 시까지 반복한다.
결과 내보내기 – 최적화된 구성은 원본 에이전트의 기본값을 교체할 수 있는 YAML/JSON 파일 형태로 출력되어 코드 변경 없이 바로 사용할 수 있다.

결과 및 발견

에이전트 (작업)	기준 메트릭	ARTEMIS‑향상 메트릭	상대적 향상
ALE Agent (AtCoder Heuristic Contest)	62 % 수락률	70.5 % 수락률	+13.6 %
Mini‑SWE Agent (SWE‑Perf 코드 최적화)	1.23× 속도 향상	1.35× 속도 향상	+10.1 % (p < 0.01)
CrewAI Agent (Math Odyssey 비용‑인식 추론)	쿼리당 1,200 토큰	쿼리당 760 토큰	‑36.9 % 토큰 사용량 (p < 0.01)
MathTales‑Teacher (GSM8K with Qwen2.5‑7B)	48 % 정확도	58.6 % 정확도	+22 %

주요 시사점

공동 최적화는 프롬프트나 하이퍼파라미터만 별도로 튜닝하는 경우보다 더 큰 이득을 제공한다.
비교적 작은 오픈소스 모델도 크게 개선되며, ARTEMIS가 “대형 API” LLM에만 국한되지 않음을 보여준다.
진화 과정은 대부분의 벤치마크에서 30 ~ 50세대(약 몇 십 대) 안에 수렴하며, 단일 GPU에서 몇 시간의 연산만으로 충분하다.

실용적 함의

신속한 프로토타이핑 – 개발 팀은 새로운 LLM‑에이전트를 만들고 대표 테스트 스위트만 지정하면, ARTEMIS가 몇 시간 안에 프로덕션‑준비 구성을 제공한다.
비용 절감 – CrewAI 사례처럼 토큰 소비를 최소화함으로써 고처리량 서비스의 API 비용을 크게 낮출 수 있다.
모델‑비종속 배포 – 온프레미스 모델을 선호하는 기업도 각 모델에 맞게 에이전트를 재작성할 필요 없이 성능 향상을 얻을 수 있다.
지속적 개선 파이프라인 – ARTEMIS를 CI/CD 워크플로에 통합하면, 에이전트나 기반 LLM이 업데이트될 때마다 자동 진화 실행이 이루어져 회귀를 조기에 감지한다.
다중 도메인 적용 가능성 – 경쟁 프로그래밍, 코드 리팩터링, 교육 튜터링 등 다양한 분야에 최적화된 에이전트를 만든 사례는, 자동 티켓 분류, 데이터 추출, UI 생성 등 모든 LLM‑구동 워크플로에 적용 가능함을 시사한다.

제한 사항 및 향후 연구

탐색 비용 – 수동 튜닝보다 저렴하지만 여전히 많은 에이전트 실행이 필요하므로, 매우 비싼 API 호출이나 지연 시간에 민감한 시스템에서는 부담이 될 수 있다.
피트니스 신호 품질 – ARTEMIS는 명확히 정의된 성능 지표에 의존한다; 속도와 정확도 같은 다목적 목표를 균형 있게 다루려면 보다 정교한 피트니스 집계가 필요하다.
의미 변이 범위 – 현재 동의어 사전과 간단한 템플릿 교체에 의존하므로, LLM‑기반 변이를 도입해 설계 공간을 더 넓게 탐색할 여지가 있다.
대규모 구성 공간 확장성 – 수백 개의 노브를 가진 에이전트는 조기 수렴 위험이 있다; 향후 서러게이트 모델이나 베이지안 최적화와의 하이브리드 접근을 검토한다.
인간 해석 가능성 – 진화된 프롬프트가 직관적이지 않을 수 있다; 왜 특정 문구가 더 나은지 시각화·설명하는 도구가 신뢰와 채택을 높이는 데 도움이 될 것이다.

요약: ARTEMIS는 자동화된 진화 튜닝이 “충분히 좋은” LLM 에이전트를 고성능·비용 효율적인 도구로 전환시킬 수 있음을 입증한다. 이는 프로덕션 환경에서 에이전트형 AI의 보다 빠르고 폭넓은 도입을 가능하게 한다.

저자

Paul Brookes
Vardan Voskanyan
Rafail Giavrimis
Matthew Truscott
Mina Ilieva
Chrystalla Pavlou
Alexandru Staicu
Manal Adham
Will Evers‑Hood
Jingzhi Gong
Kejia Zhang
Matvey Fedoseev
Vishal Sharma
Roman Bauer
Zheng Wang
Hema Nair
Wei Jie
Tianhua Xu
Aurora Constantin
Leslie Kanthan
Michail Basios

논문 정보

arXiv ID: 2512.09108v1
Categories: cs.SE, cs.AI
Published: December 9, 2025
PDF: Download PDF

[Paper] 진화하는 탁월함: LLM 기반 에이전트의 자동 최적화

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] Particulate: Feed-Forward 3D 객체 관절화

[Paper] 무작위 순차 추가를 통한 고차 상호작용 탐지를 위한 일반 알고리즘

[Paper] Softmax를 Large-Prompt Regime에서 Linear Attention으로: Measure-based Perspective

[Paper] Super Suffixes: 텍스트 생성 정렬 및 Guard 모델을 동시에 우회