[Paper] 에이전트 정책 최적화를 위한 Instruction-Policy 공동 진화
발행: (2025년 12월 2일 오전 02:56 GMT+9)
9 min read
원문: arXiv
Source: arXiv - 2512.01945v1
개요
이 논문은 INSPO(Instruction‑Policy Co‑evolution)라는 새로운 프레임워크를 제시한다. INSPO는 대형 언어 모델(LLM) 에이전트가 강화 학습 과정에서 지시 내용(instructions)과 행동 정책(policy)을 동시에 지속적으로 개선할 수 있게 한다. 지시를 고정된 프롬프트가 아니라 동적으로 학습 가능한 요소로 취급함으로써, INSPO는 다중 턴 추론 및 도구 사용을 보다 효율적으로 수행하게 하며, 검색 강화와 복잡한 추론 벤치마크에서 눈에 띄는 성능 향상을 제공한다.
주요 기여
- 공진화 루프: 지시와 정책을 함께 최적화하는 폐쇄 루프 시스템을 도입하여, 서로의 개선에 정보를 제공하도록 한다.
- 지시 집단 관리: 다양한 후보 지시들의 풀을 유지하고, 각 지시에 RL 보상을 자동으로 할당하며 성능이 낮은 지시는 제거한다.
- 온‑폴리시 반성 옵티마이저: 재생 버퍼 경험을 분석해 새로운 고품질 지시를 생성·검증하는 LLM 기반 옵티마이저를 활용한다.
- 실험적 검증: 다중 턴 검색 및 추론 작업에서 강력한 정적 지시 기반 베이스라인 대비 상당한 이득을 보이며, 계산 비용은 약간만 증가한다.
- 해석 가능성 향상: 진화된 지시는 종종 에이전트를 보다 전략적인 추론 경로로 이끄는 새로운 프롬프트 전략을 드러낸다.
방법론
- 초기 설정 – 기본 LLM과 소수의 초기 지시(예: “문제를 단계별로 답하라”)를 준비한다.
- 지시 집단 – 동적인 후보 지시 풀을 유지한다. 각 에피소드마다 하나의 지시를 샘플링하고 현재 정책과 결합해 환경(예: 검색 강화 QA 시스템)과 상호작용한다.
- 보상 할당 – 에피소드에서 얻은 RL 보상을 정책에만 역전파하는 것이 아니라 샘플링된 지시에도 기록한다.
- 제거 및 생성 – 주기적으로 점수가 가장 낮은 지시를 제거한다. 전용 LLM “반성” 모듈이 재생 버퍼를 검토해 실패 패턴을 식별하고, 정책을 더 잘 이끌 수 있는 새로운 지시 후보를 합성한다.
- 검증 – 새로운 지시는 검증 세트에서 간단히 테스트되며, 보상 신호를 향상시키는 경우에만 풀에 추가된다.
- 정책 업데이트 – 수집된 궤적을 이용해 표준 RL 알고리즘(예: PPO)으로 정책을 업데이트한다. 이때 정책은 진화하는 지시 집합에 조건부로 학습된다.
전체 과정이 반복되면서 정책이 더 능숙해짐에 따라 지시 집합도 적응하고, 그 반대도 마찬가지이다.
결과 및 발견
| 작업 | 베이스라인 (정적 지시) | INSPO | 상대 ↑ |
|---|---|---|---|
| 다중 턴 검색 QA | 71.3 % EM | 78.9 % EM | +10.6 % |
| 복잡 추론 (CoT) | 64.5 % Acc | 72.1 % Acc | +11.8 % |
| 도구 통합 추론 | 58.2 % Success | 65.4 % Success | +12.4 % |
- 지시 다양성: 진화된 지시 풀은 “먼저 가장 관련성 높은 소스를 찾고, 각 주장을 검증한 뒤 답변한다”와 같은 프롬프트로 수렴했으며, 이는 초기 집합에 없던 내용이다.
- 계산 오버헤드: 지시 생성 단계가 추가되면서 정적 지시 RL 루프 대비 벽시계 시간이 약 15 % 증가했지만, 많은 실무자는 성능 향상을 감안해 이를 수용했다.
- 안정성: 공진화 과정은 다양한 랜덤 시드에서도 안정적으로 유지되었으며, 최종 점수의 분산이 정적 베이스라인 대비 약 30 % 감소했다.
실용적 함의
- 프롬프트 엔지니어링 개선: 개발자는 수작업으로 프롬프트를 반복 실험하는 부담을 자동화된 공진화 루프에 맡겨 시간 절약과 동시에 비직관적인 프롬프트 전략을 발견할 수 있다.
- 적응형 에이전트: 환경이 변하는(예: API 또는 지식 베이스가 바뀌는) 프로덕션 시스템에서 INSPO는 정책과 “운영 매뉴얼”을 동시에 지속적으로 업데이트해 성능을 유지한다.
- 도구 사용 통합: 외부 서비스(검색 엔진, 계산기, 코드 인터프리터 등)를 호출해야 하는 에이전트는 동적으로 다듬어진 지시를 통해 더 효율적인 도구 선택·순서를 결정할 수 있어 API 비용과 지연 시간을 감소시킨다.
- 전이 가능성: 한 작업에서 학습된 지시 풀을 관련 작업에 시드로 제공하면 새로운 도메인에서 학습 속도가 크게 빨라진다.
- 디버깅 보조: 진화된 지시는 에이전트가 특정 추론 경로를 선택한 이유를 설명하는 해석 가능한 산출물로 작용해 컴플라이언스·안전 감사에 도움이 된다.
한계 및 향후 연구
- LLM 의존성: 반성 옵티마이저 자체가 LLM이므로, 생성되는 지시의 품질은 기반 모델의 능력에 좌우되며 편향을 함께 물려받을 수 있다.
- 대규모 풀 확장성: 적당한 규모의 지시 집단은 잘 작동하지만, 수백 개로 확장하면 메모리·계산 부담이 커져 보다 스마트한 샘플링 전략이 필요하다.
- 도메인 특수성: 실험은 검색·추론에 초점을 맞췄으며, 로봇공학이나 대화 시스템 등에 적용하려면 작업별 보상 설계가 필요할 수 있다.
- 미래 방향: 저자들은 메타‑러닝을 활용해 작업 간 지시 진화를 전이하는 방법, 안전이 중요한 분야에서 인간‑인‑루프 검증을 결합하는 방안, 그리고 경량 모델을 이용해 LLM 기반 옵티마이저 의존도를 낮추는 연구를 제안한다.
저자
- Han Zhou
- Xingchen Wan
- Ivan Vulić
- Anna Korhonen
논문 정보
- arXiv ID: 2512.01945v1
- 분류: cs.LG, cs.AI, cs.CL
- 발표일: 2025년 12월 1일
- PDF: Download PDF