[Paper] SCOPE: Language Models를 One-Time Teacher로 활용한 Text Environments에서의 Hierarchical Planning

발행: 2개월 전 (2025년 12월 11일 오전 03:26 GMT+9)

7 분 소요

원문: arXiv

Source: arXiv - 2512.09897v1

Overview

이 논문은 SCOPE 라는 새로운 방식을 제시한다. SCOPE는 대규모 언어 모델(LLM)을 순수 텍스트 환경에서 계층적 계획을 위한 “한 번만 사용하는 교사”로 전환한다. 학습 시작 시점에 LLM으로부터 서브골을 한 번만 추출함으로써, SCOPE는 추가적인 LLM 호출 없이 동작할 수 있는 경량 학생 플래너를 사전 학습한다. 이는 계산 비용을 크게 절감하면서도 TextCraft 벤치마크에서 기존 최첨단 성능을 능가한다.

Key Contributions

One‑Shot Subgoal Generation – 초기화 단계에서만 LLM을 사용해 예시 궤적으로부터 서브골을 생성함으로써, 학습 및 추론 중 반복적인 프롬프트를 없앤다.
Subgoal‑Conditioned Pretraining (SCOPE) – LLM이 생성한 서브골을 따르는 경량 계층형 플래너를 도입하여, LLM의 세계 지식을 압축된 모델에 효과적으로 증류한다.
Efficiency Gains – 추론 지연 시간을 ~164 s (LLM‑기반 ADaPT)에서 ~3 s 로 감소시키면서 성공률을 더 높인다 (0.56 vs 0.52).
Empirical Validation – 비록 최적이 아닌 LLM‑생성 서브골이라도 TextCraft 텍스트 기반 계획 환경에서 계층적 분해를 위한 강력한 골격을 제공함을 입증한다.

Methodology

Collect Example Trajectories – 목표 텍스트 환경에서 성공적인(또는 부분적으로 성공한) 행동 시퀀스 집합을 적당히 수집한다.
LLM Subgoal Extraction (One‑Shot) – 각 궤적에 대해 대규모 사전 학습된 LLM(예: GPT‑4)을 프롬프트하고, 이를 “목재 수집”, “쉼터 건설”과 같은 고수준 서브골로 나누도록 요청한다. 이 단계는 한 번만 실행된다.
Student Planner Architecture – 두 단계 모델을 구축한다:
- High‑Level Policy는 현재 텍스트 관찰에 조건화되어 다음에 추구할 서브골을 예측한다.
- Low‑Level Policy는 선택된 서브골을 달성하기 위해 원시 행동을 실행한다.
Subgoal‑Conditioned Pretraining – 추출된 서브골을 사용해 학생 플래너를 표준 지도 학습(서브골 선택에 대한 교차 엔트로피, 저수준 행동에 대한 모방 손실)으로 훈련한다. 이 단계 이후에는 LLM 호출이 필요하지 않다.
Fine‑Tuning (Optional) – 목표 환경에서 짧은 미세 조정 단계를 거쳐 LLM을 다시 호출하지 않고도 학생을 추가로 적응시킬 수 있다.

전체 파이프라인은 “교사‑학생” 증류와 유사하지만, 교사의 지도는 학습 중 반복되지 않고 한 번만 제공된다.

Results & Findings

Metric	ADaPT (LLM‑based)	SCOPE
Success Rate (TextCraft)	0.52	0.56
Inference Time per Episode	164.4 s	3.0 s
Model Size (Student)	–	~30 M parameters (≈ 1 % of LLM)

Higher Success with Far Less Latency – SCOPE는 기존 계층형 에이전트보다 55배 빠른 속도를 제공하면서도 성능을 앞선다, 실시간 배포가 가능해진다.
Robustness to Suboptimal Subgoals – LLM이 생성한 서브골이 완벽히 최적이 아니더라도, 학생은 이를 보완해 학습한다. 이는 정확한 최적성보다 계층적 골격이 더 가치 있음을 시사한다.
Scalability – LLM을 한 번만 호출하기 때문에, 데이터셋이 커지거나 환경이 복잡해져도 계산 비용이 비례적으로 증가하지 않는다.

Practical Implications

Deployable Agents – 개발자는 경량 학생 플래너를 게임, 인터랙티브 픽션, 텍스트 기반 튜터링 시스템 등에 삽입해 지연 시간과 자원 제약이 중요한 상황에 활용할 수 있다.
Cost‑Effective Knowledge Transfer – 비용이 많이 드는 LLM API를 한 번만 사용해 도메인 특화 플래너를 부트스트랩한 뒤, 완전히 오프라인으로 실행할 수 있다.
Rapid Prototyping – 한 번의 서브골 추출 파이프라인을 어떤 LLM 제공자와도 스크립팅할 수 있어, 새로운 텍스트 환경에 대해 대규모 모델을 재학습하지 않고도 빠르게 실험할 수 있다.
Hybrid Systems – SCOPE의 구조는 “fallback” 설계에 적합하다: 대부분의 결정은 학생 플래너가 담당하고, 학생의 신뢰도가 낮은 드문 경우에만 LLM을 호출한다.

Limitations & Future Work

Explainability Trade‑off – 서브골이 한 번만 생성되므로, 개발자는 학습 중에 동적으로 서브골을 검토하거나 조정할 수 없어 해석 가능성이 제한된다.
Subgoal Quality Dependency – 이 접근법은 LLM의 한 번짜리 서브골이 대략적으로라도 타당하다고 가정한다; 지나치게 노이즈가 많은 서브골은 성능 저하를 초래할 수 있다.
Domain Generalization – 실험은 TextCraft에만 국한되었으며, 보다 풍부한 멀티모달 혹은 구현 환경으로 확장하는 것은 아직 미해결 과제이다.
Future Directions – 저자들은 적응형 서브골 정제(예: 가끔 LLM 재질의)와 코드 생성 또는 API 호출과 같이 계층적 계획이 중요한 작업에 SCOPE를 적용하는 방안을 제안한다.

Authors

Haoye Lu
Pavan Seshadri
Kaheer Suleman

Paper Information

arXiv ID: 2512.09897v1
Categories: cs.AI, cs.CL
Published: December 10, 2025
PDF: Download PDF

[Paper] SCOPE: Language Models를 One-Time Teacher로 활용한 Text Environments에서의 Hierarchical Planning

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] 신호에서 턴까지: 모듈형 Speech-to-Speech 파이프라인의 상호작용 마찰

[Paper] 대규모 신문 아카이브에서 Neural Topic Modeling을 통한 역사적 인사이트 추출 자동화

[Paper] 환각 억제: 정보이론적 보장을 통한 RAG 시스템의 Merlin-Arthur 프로토콜

[Paper] 블랙박스 언어 모델의 토큰 중요도 시각화