[논문] LLM 추론을 해석 가능한 정책 트리로 정제해 인간‑AI 협업에 활용
개요
인간을 돕는 효율적이고 신뢰할 수 있는 정책을 구축하는 것은 인간‑AI 협업에 필수적이다. 기존 방법은 주로 두 갈래로 나뉜다. 대부분의 선행 연구는 다중 에이전트 강화학습(MARL)을 이용해 블랙박스 정책을 학습하는데, 이는 해석 가능성을 제한하고 안전성 문제를 야기한다. 최근 방법들은 매 의사결정 단계마다 대형 언어 모델(LLM)을 호출하는데, 이는 응답 속도가 느리고 추론 비용이 높다. 우리는 Collaboration Policy Tree (Co-pi-tree) 를 제안한다. 이는 파트너 행동 예측 트리와 에이전트 행동 선택 트리로 구성된 실행 가능한 정책 트리를 학습하는 폐쇄‑루프 방식이다. Co-pi-tree는 LLM의 추론 과정을 정책 트리 코드로 증류하여 정책을 만든다. 이후 파트너와의 상호작용을 통해 정책을 평가하고 피드백을 얻으며, 자연어로 상호작용 피드백을 요약해 문제 있는 가지를 개선한다. Overcooked‑AI 실험에서 Co-pi-tree는 평균 보상을 기존 평균 대비 35.4% 향상시키면서 LLM 호출 횟수를 77.7% 줄이고 테스트 시 지연 시간을 97.1% 감소시켰다. 프로젝트 페이지: https://beiwenzhang.github.io/Co-pi-tree/
주요 기여
이 논문은 다음 분야의 연구를 다룬다:
- cs.AI
- cs.HC
방법론
자세한 방법론은 전체 논문을 참고하라.
실용적 함의
본 연구는 cs.AI 분야의 발전에 기여한다.
저자
- Beiwen Zhang
- Yongheng Liang
- Guowei Zou
- Haitao Wang
- Hejun Wu
논문 정보
- arXiv ID: 2606.08596v1
- 분류: cs.AI, cs.HC
- 발표일: 2026년 6월 7일
- PDF: PDF 다운로드