[Paper] MASPO: LLM 기반 멀티에이전트 시스템을 위한 공동 프롬프트 최적화
Source: arXiv - 2605.06623v1
위에 제공된 내용 외에 번역하고 싶은 텍스트가 있으면 알려 주세요. 해당 텍스트를 한국어로 번역해 드리겠습니다.
Overview
대형 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)은 복잡한 문제를 분해하는 새로운 방법으로 부상하고 있습니다—예를 들어 자동화된 고객 지원 파이프라인, 데이터 분석 워크플로, 혹은 게임 플레이 봇 등—각각의 전문화된 에이전트가 담당하는 조정된 하위 작업으로 나누는 방식입니다. 논문 **“MASPO: Joint Prompt Optimization for LLM‑based Multi‑Agent Systems”**는 놀라울 정도로 까다로운 문제를 다룹니다: 각 에이전트를 제어하는 프롬프트가 보통 개별적으로 튜닝되기 때문에 전체 시스템이 원하는 전역 결과에서 벗어날 수 있다는 점입니다. MASPO는 프롬프트를 공동으로 반복적으로 다듬는 통합된 데이터 기반 방법을 제안하여, 모든 에이전트의 지시 세트가 엔드‑투‑엔드 목표와 일치하도록 합니다.
주요 기여
- 공동 프롬프트 평가: 프롬프트가 즉각적인 정답 여부뿐 아니라 다음 에이전트가 성공하도록 얼마나 잘 준비시키는지를 점수화하는 메트릭을 도입하여, 수작업으로 만든 정답 라벨이 필요 없게 함.
- MASPO 프레임워크: 다중 에이전트 시스템(MAS) 내 모든 에이전트의 프롬프트를 반복적인 평가와 업데이트 사이클을 통해 자동으로 개선하는 폐쇄 루프 시스템.
- 진화적 빔 서치: 방대한 다중 에이전트 프롬프트 조합 공간을 전수 조사 없이 탐색할 수 있는 확장 가능하고 데이터 효율적인 탐색 알고리즘.
- 실증 검증: 6개의 이질적인 협업 작업에서 기존 프롬프트 최적화 베이스라인 대비 일관된 향상(≈ 2.9 % 절대 정확도 개선)을 입증.
- 오픈소스 공개: 커뮤니티가 기존 LLM 기반 파이프라인에 쉽게 적용할 수 있도록 사용 가능한 구현(https://github.com/wangzx1219/MASPO)을 제공.
방법론
- Prompt Population Initialization – 각 에이전트에 대해 MASPO는 후보 프롬프트 집합(예: 역할 설명 변형, 작업 지시 또는 컨텍스트 스니펫)으로 시작합니다.
- Joint Evaluation Loop
- Forward Pass: 검증 배치를 사용해 MAS를 실행하고, 각 에이전트에 현재 프롬프트를 제공한 뒤 후속 에이전트의 다운스트림 출력을 캡처합니다.
- Scoring Function: 로컬 에이전트의 성능(예: 즉각적인 응답의 정확도)과 다음 에이전트가 하위 목표를 달성하도록 돕는 정도를 측정하는 후속‑영향 항을 결합한 공동 점수를 계산합니다.
- Evolutionary Beam Search
- Selection: 공동 점수를 기준으로 상위 k개의 프롬프트 구성을 (“빔”) 유지합니다.
- Mutation & Crossover: 구문을 교체하거나 작업‑특정 키워드를 삽입하거나 높은 점수를 받은 프롬프트의 부분을 재조합하여 새로운 프롬프트 변형을 생성합니다.
- Iteration: 수렴하거나 예산 한도에 도달할 때까지 평가‑선택‑변이 사이클을 반복합니다.
- Final Deployment: 각 에이전트에 대한 최고 점수 프롬프트 세트를 내보내어 실제 운영에 사용합니다.
전체 파이프라인은 완전 자동화되어 있으며, 개발자는 작업 정의, 작은 검증 세트, 그리고 에이전트당 초기 프롬프트 템플릿만 제공하면 됩니다.
결과 및 발견
| 작업 카테고리 | 베이스라인 (최신 기술) | MASPO | Δ 정확도 |
|---|---|---|---|
| 협업 QA | 78.4 % | 81.3 % | +2.9 % |
| 다단계 코드 생성 | 71.2 % | 73.8 % | +2.6 % |
| 계획 및 실행 (시뮬레이션 로봇) | 84.0 % | 86.5 % | +2.5 % |
| … (다른 4개 작업) | — | — | — |
핵심 요약
- 일관된 우위: MASPO는 수동 프롬프트 엔지니어링, 강화학습 기반 튜닝 등 전문 프롬프트‑튜닝 방법들을 모든 테스트 도메인에서 능가합니다.
- 효율성: 진화적 빔 서치는 10–15 회 반복 내에 수렴하며, 전수 그리드 탐색에 비해 훨씬 적은 LLM 호출만 필요합니다.
- 견고성: 공동 평가 지표는 하위 에이전트를 교체하거나 순서를 바꿔도 안정적으로 유지되어 좋은 일반화를 나타냅니다.
Practical Implications
- Plug‑and‑Play Prompt Tuning: LLM‑기반 어시스턴트를 구축하는 팀은 MASPO를 통합하여 각 마이크로‑서비스/에이전트의 프롬프트를 자동으로 조화시킬 수 있어 수동적인 시도와 오류를 줄일 수 있습니다.
- Reduced Latency & Cost: 빠르게 수렴하고 비용이 많이 드는 인간 피드백 기반 강화학습 루프를 피함으로써 MASPO는 API 사용 비용을 절감합니다—수십 개의 에이전트로 확장할 때 필수적입니다.
- Better End‑to‑End Reliability: 공동 최적화된 프롬프트는 첫 번째 에이전트가 잘 동작하더라도 다음 에이전트에 혼란스러운 컨텍스트를 전달하는 “파이프라인 취약성”을 완화합니다. 이는 다단계 워크플로우에서 흔히 겪는 문제점입니다.
- Cross‑Domain Portability: 이 프레임워크는 모델에 쿼리할 수만 있다면 OpenAI, Anthropic, LLaMA 등 모든 LLM 제공자와 함께 사용할 수 있어 클라우드 기반 및 온‑프레미스 배포 모두에 적합합니다.
제한 사항 및 향후 작업
- 프롬프트 공간 휴리스틱: 진화적 빔 서치는 효율적이지만 여전히 수작업 변이 연산자에 의존한다; 특이한 프롬프트 구조가 놓칠 수 있다.
- 매우 큰 MAS에 대한 확장성: 실험은 ≤ 5 에이전트로 제한되었으며, 수십 개의 상호작용 에이전트로 확장하면 탐색 공간과 평가 비용이 급증할 수 있다.
- 작업‑특정 스코어링: 공동 점수는 로컬 및 후속 메트릭을 결합하지만, 적절한 가중치를 정의하려면 도메인 지식이 필요할 수 있다.
- 향후 방향: 저자들은 변이를 안내하기 위한 그래디언트 기반 프롬프트 임베딩 탐색, 안전‑중요 분야를 위한 인간‑인‑루프 피드백 통합, 그리고 실제 생산 파이프라인(예: 다중‑에이전트 고객‑지원 봇)에서의 벤치마크를 제안한다.
저자
- Zhexuan Wang
- Xuebo Liu
- Li Wang
- Zifei Shan
- Yutong Wang
- Zhenxi Song
- Min Zhang
논문 정보
- arXiv ID: 2605.06623v1
- 분류: cs.AI, cs.CL
- 출판일: 2026년 5월 7일
- PDF: PDF 다운로드