[Paper] 에이전트 정책 최적화를 위한 Instruction-Policy 공동 진화

발행: 3일 전 (2025년 12월 2일 오전 02:56 GMT+9)

9 min read

원문: arXiv

Source: arXiv - 2512.01945v1

개요

이 논문은 INSPO(Instruction‑Policy Co‑evolution)라는 새로운 프레임워크를 제시한다. INSPO는 대형 언어 모델(LLM) 에이전트가 강화 학습 과정에서 지시 내용(instructions)과 행동 정책(policy)을 동시에 지속적으로 개선할 수 있게 한다. 지시를 고정된 프롬프트가 아니라 동적으로 학습 가능한 요소로 취급함으로써, INSPO는 다중 턴 추론 및 도구 사용을 보다 효율적으로 수행하게 하며, 검색 강화와 복잡한 추론 벤치마크에서 눈에 띄는 성능 향상을 제공한다.

주요 기여

공진화 루프: 지시와 정책을 함께 최적화하는 폐쇄 루프 시스템을 도입하여, 서로의 개선에 정보를 제공하도록 한다.
지시 집단 관리: 다양한 후보 지시들의 풀을 유지하고, 각 지시에 RL 보상을 자동으로 할당하며 성능이 낮은 지시는 제거한다.
온‑폴리시 반성 옵티마이저: 재생 버퍼 경험을 분석해 새로운 고품질 지시를 생성·검증하는 LLM 기반 옵티마이저를 활용한다.
실험적 검증: 다중 턴 검색 및 추론 작업에서 강력한 정적 지시 기반 베이스라인 대비 상당한 이득을 보이며, 계산 비용은 약간만 증가한다.
해석 가능성 향상: 진화된 지시는 종종 에이전트를 보다 전략적인 추론 경로로 이끄는 새로운 프롬프트 전략을 드러낸다.

방법론

초기 설정 – 기본 LLM과 소수의 초기 지시(예: “문제를 단계별로 답하라”)를 준비한다.
지시 집단 – 동적인 후보 지시 풀을 유지한다. 각 에피소드마다 하나의 지시를 샘플링하고 현재 정책과 결합해 환경(예: 검색 강화 QA 시스템)과 상호작용한다.
보상 할당 – 에피소드에서 얻은 RL 보상을 정책에만 역전파하는 것이 아니라 샘플링된 지시에도 기록한다.
제거 및 생성 – 주기적으로 점수가 가장 낮은 지시를 제거한다. 전용 LLM “반성” 모듈이 재생 버퍼를 검토해 실패 패턴을 식별하고, 정책을 더 잘 이끌 수 있는 새로운 지시 후보를 합성한다.
검증 – 새로운 지시는 검증 세트에서 간단히 테스트되며, 보상 신호를 향상시키는 경우에만 풀에 추가된다.
정책 업데이트 – 수집된 궤적을 이용해 표준 RL 알고리즘(예: PPO)으로 정책을 업데이트한다. 이때 정책은 진화하는 지시 집합에 조건부로 학습된다.

전체 과정이 반복되면서 정책이 더 능숙해짐에 따라 지시 집합도 적응하고, 그 반대도 마찬가지이다.

결과 및 발견

작업	베이스라인 (정적 지시)	INSPO	상대 ↑
다중 턴 검색 QA	71.3 % EM	78.9 % EM	+10.6 %
복잡 추론 (CoT)	64.5 % Acc	72.1 % Acc	+11.8 %
도구 통합 추론	58.2 % Success	65.4 % Success	+12.4 %

지시 다양성: 진화된 지시 풀은 “먼저 가장 관련성 높은 소스를 찾고, 각 주장을 검증한 뒤 답변한다”와 같은 프롬프트로 수렴했으며, 이는 초기 집합에 없던 내용이다.
계산 오버헤드: 지시 생성 단계가 추가되면서 정적 지시 RL 루프 대비 벽시계 시간이 약 15 % 증가했지만, 많은 실무자는 성능 향상을 감안해 이를 수용했다.
안정성: 공진화 과정은 다양한 랜덤 시드에서도 안정적으로 유지되었으며, 최종 점수의 분산이 정적 베이스라인 대비 약 30 % 감소했다.

실용적 함의

프롬프트 엔지니어링 개선: 개발자는 수작업으로 프롬프트를 반복 실험하는 부담을 자동화된 공진화 루프에 맡겨 시간 절약과 동시에 비직관적인 프롬프트 전략을 발견할 수 있다.
적응형 에이전트: 환경이 변하는(예: API 또는 지식 베이스가 바뀌는) 프로덕션 시스템에서 INSPO는 정책과 “운영 매뉴얼”을 동시에 지속적으로 업데이트해 성능을 유지한다.
도구 사용 통합: 외부 서비스(검색 엔진, 계산기, 코드 인터프리터 등)를 호출해야 하는 에이전트는 동적으로 다듬어진 지시를 통해 더 효율적인 도구 선택·순서를 결정할 수 있어 API 비용과 지연 시간을 감소시킨다.
전이 가능성: 한 작업에서 학습된 지시 풀을 관련 작업에 시드로 제공하면 새로운 도메인에서 학습 속도가 크게 빨라진다.
디버깅 보조: 진화된 지시는 에이전트가 특정 추론 경로를 선택한 이유를 설명하는 해석 가능한 산출물로 작용해 컴플라이언스·안전 감사에 도움이 된다.

한계 및 향후 연구

LLM 의존성: 반성 옵티마이저 자체가 LLM이므로, 생성되는 지시의 품질은 기반 모델의 능력에 좌우되며 편향을 함께 물려받을 수 있다.
대규모 풀 확장성: 적당한 규모의 지시 집단은 잘 작동하지만, 수백 개로 확장하면 메모리·계산 부담이 커져 보다 스마트한 샘플링 전략이 필요하다.
도메인 특수성: 실험은 검색·추론에 초점을 맞췄으며, 로봇공학이나 대화 시스템 등에 적용하려면 작업별 보상 설계가 필요할 수 있다.
미래 방향: 저자들은 메타‑러닝을 활용해 작업 간 지시 진화를 전이하는 방법, 안전이 중요한 분야에서 인간‑인‑루프 검증을 결합하는 방안, 그리고 경량 모델을 이용해 LLM 기반 옵티마이저 의존도를 낮추는 연구를 제안한다.

저자

Han Zhou
Xingchen Wan
Ivan Vulić
Anna Korhonen

논문 정보

arXiv ID: 2512.01945v1
분류: cs.LG, cs.AI, cs.CL
발표일: 2025년 12월 1일
PDF: Download PDF

[Paper] 에이전트 정책 최적화를 위한 Instruction-Policy 공동 진화

개요

주요 기여

방법론

결과 및 발견

실용적 함의

한계 및 향후 연구

저자

논문 정보

관련 글

[Paper] DraCo: Draft as CoT for Text-to-Image 미리보기 및 희귀 개념 생성

[Paper] Semantic Soft Bootstrapping: LLMs에서 Reinforcement Learning 없이 긴 컨텍스트 추론

[Paper] 구조화된 문서 번역을 위한 포맷 강화 학습

[Paper] Multi-LLM 협업을 통한 약물 추천