[논문] LLM 추론을 해석 가능한 정책 트리로 정제해 인간‑AI 협업에 활용

발행: 3일 전 (2026년 6월 7일 PM 09:20 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.08596v1

개요

인간을 돕는 효율적이고 신뢰할 수 있는 정책을 구축하는 것은 인간‑AI 협업에 필수적이다. 기존 방법은 주로 두 갈래로 나뉜다. 대부분의 선행 연구는 다중 에이전트 강화학습(MARL)을 이용해 블랙박스 정책을 학습하는데, 이는 해석 가능성을 제한하고 안전성 문제를 야기한다. 최근 방법들은 매 의사결정 단계마다 대형 언어 모델(LLM)을 호출하는데, 이는 응답 속도가 느리고 추론 비용이 높다. 우리는 Collaboration Policy Tree (Co-pi-tree) 를 제안한다. 이는 파트너 행동 예측 트리와 에이전트 행동 선택 트리로 구성된 실행 가능한 정책 트리를 학습하는 폐쇄‑루프 방식이다. Co-pi-tree는 LLM의 추론 과정을 정책 트리 코드로 증류하여 정책을 만든다. 이후 파트너와의 상호작용을 통해 정책을 평가하고 피드백을 얻으며, 자연어로 상호작용 피드백을 요약해 문제 있는 가지를 개선한다. Overcooked‑AI 실험에서 Co-pi-tree는 평균 보상을 기존 평균 대비 35.4% 향상시키면서 LLM 호출 횟수를 77.7% 줄이고 테스트 시 지연 시간을 97.1% 감소시켰다. 프로젝트 페이지: https://beiwenzhang.github.io/Co-pi-tree/

주요 기여

이 논문은 다음 분야의 연구를 다룬다:

cs.AI
cs.HC

방법론

자세한 방법론은 전체 논문을 참고하라.

실용적 함의

본 연구는 cs.AI 분야의 발전에 기여한다.

저자

Beiwen Zhang
Yongheng Liang
Guowei Zou
Haitao Wang
Hejun Wu

논문 정보

arXiv ID: 2606.08596v1
분류: cs.AI, cs.HC
발표일: 2026년 6월 7일
PDF: PDF 다운로드

[논문] LLM 추론을 해석 가능한 정책 트리로 정제해 인간‑AI 협업에 활용

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 피드백 정렬의 랭크 붕괴 극복

[논문] 온라인 플랫폼의 데이터 기반 동적 상품 구색: 양측면 학습

[논문] 자율 가속기 설계를 향해: SECDA 기반 FPGA 가속기 생성

[논문] 기자가 설계했지만 독자를 위한 걸까? AI 공개와 뉴스 투명성 재고