[Paper] SCOPE: Language Models를 One-Time Teacher로 활용한 Text Environments에서의 Hierarchical Planning
발행: (2025년 12월 11일 오전 03:26 GMT+9)
7 min read
원문: arXiv
Source: arXiv - 2512.09897v1
Overview
이 논문은 SCOPE 라는 새로운 방식을 제시한다. SCOPE는 대규모 언어 모델(LLM)을 순수 텍스트 환경에서 계층적 계획을 위한 “한 번만 사용하는 교사”로 전환한다. 학습 시작 시점에 LLM으로부터 서브골을 한 번만 추출함으로써, SCOPE는 추가적인 LLM 호출 없이 동작할 수 있는 경량 학생 플래너를 사전 학습한다. 이는 계산 비용을 크게 절감하면서도 TextCraft 벤치마크에서 기존 최첨단 성능을 능가한다.
Key Contributions
- One‑Shot Subgoal Generation – 초기화 단계에서만 LLM을 사용해 예시 궤적으로부터 서브골을 생성함으로써, 학습 및 추론 중 반복적인 프롬프트를 없앤다.
- Subgoal‑Conditioned Pretraining (SCOPE) – LLM이 생성한 서브골을 따르는 경량 계층형 플래너를 도입하여, LLM의 세계 지식을 압축된 모델에 효과적으로 증류한다.
- Efficiency Gains – 추론 지연 시간을 ~164 s (LLM‑기반 ADaPT)에서 ~3 s 로 감소시키면서 성공률을 더 높인다 (0.56 vs 0.52).
- Empirical Validation – 비록 최적이 아닌 LLM‑생성 서브골이라도 TextCraft 텍스트 기반 계획 환경에서 계층적 분해를 위한 강력한 골격을 제공함을 입증한다.
Methodology
- Collect Example Trajectories – 목표 텍스트 환경에서 성공적인(또는 부분적으로 성공한) 행동 시퀀스 집합을 적당히 수집한다.
- LLM Subgoal Extraction (One‑Shot) – 각 궤적에 대해 대규모 사전 학습된 LLM(예: GPT‑4)을 프롬프트하고, 이를 “목재 수집”, “쉼터 건설”과 같은 고수준 서브골로 나누도록 요청한다. 이 단계는 한 번만 실행된다.
- Student Planner Architecture – 두 단계 모델을 구축한다:
- High‑Level Policy는 현재 텍스트 관찰에 조건화되어 다음에 추구할 서브골을 예측한다.
- Low‑Level Policy는 선택된 서브골을 달성하기 위해 원시 행동을 실행한다.
- Subgoal‑Conditioned Pretraining – 추출된 서브골을 사용해 학생 플래너를 표준 지도 학습(서브골 선택에 대한 교차 엔트로피, 저수준 행동에 대한 모방 손실)으로 훈련한다. 이 단계 이후에는 LLM 호출이 필요하지 않다.
- Fine‑Tuning (Optional) – 목표 환경에서 짧은 미세 조정 단계를 거쳐 LLM을 다시 호출하지 않고도 학생을 추가로 적응시킬 수 있다.
전체 파이프라인은 “교사‑학생” 증류와 유사하지만, 교사의 지도는 학습 중 반복되지 않고 한 번만 제공된다.
Results & Findings
| Metric | ADaPT (LLM‑based) | SCOPE |
|---|---|---|
| Success Rate (TextCraft) | 0.52 | 0.56 |
| Inference Time per Episode | 164.4 s | 3.0 s |
| Model Size (Student) | – | ~30 M parameters (≈ 1 % of LLM) |
- Higher Success with Far Less Latency – SCOPE는 기존 계층형 에이전트보다 55배 빠른 속도를 제공하면서도 성능을 앞선다, 실시간 배포가 가능해진다.
- Robustness to Suboptimal Subgoals – LLM이 생성한 서브골이 완벽히 최적이 아니더라도, 학생은 이를 보완해 학습한다. 이는 정확한 최적성보다 계층적 골격이 더 가치 있음을 시사한다.
- Scalability – LLM을 한 번만 호출하기 때문에, 데이터셋이 커지거나 환경이 복잡해져도 계산 비용이 비례적으로 증가하지 않는다.
Practical Implications
- Deployable Agents – 개발자는 경량 학생 플래너를 게임, 인터랙티브 픽션, 텍스트 기반 튜터링 시스템 등에 삽입해 지연 시간과 자원 제약이 중요한 상황에 활용할 수 있다.
- Cost‑Effective Knowledge Transfer – 비용이 많이 드는 LLM API를 한 번만 사용해 도메인 특화 플래너를 부트스트랩한 뒤, 완전히 오프라인으로 실행할 수 있다.
- Rapid Prototyping – 한 번의 서브골 추출 파이프라인을 어떤 LLM 제공자와도 스크립팅할 수 있어, 새로운 텍스트 환경에 대해 대규모 모델을 재학습하지 않고도 빠르게 실험할 수 있다.
- Hybrid Systems – SCOPE의 구조는 “fallback” 설계에 적합하다: 대부분의 결정은 학생 플래너가 담당하고, 학생의 신뢰도가 낮은 드문 경우에만 LLM을 호출한다.
Limitations & Future Work
- Explainability Trade‑off – 서브골이 한 번만 생성되므로, 개발자는 학습 중에 동적으로 서브골을 검토하거나 조정할 수 없어 해석 가능성이 제한된다.
- Subgoal Quality Dependency – 이 접근법은 LLM의 한 번짜리 서브골이 대략적으로라도 타당하다고 가정한다; 지나치게 노이즈가 많은 서브골은 성능 저하를 초래할 수 있다.
- Domain Generalization – 실험은 TextCraft에만 국한되었으며, 보다 풍부한 멀티모달 혹은 구현 환경으로 확장하는 것은 아직 미해결 과제이다.
- Future Directions – 저자들은 적응형 서브골 정제(예: 가끔 LLM 재질의)와 코드 생성 또는 API 호출과 같이 계층적 계획이 중요한 작업에 SCOPE를 적용하는 방안을 제안한다.
Authors
- Haoye Lu
- Pavan Seshadri
- Kaheer Suleman
Paper Information
- arXiv ID: 2512.09897v1
- Categories: cs.AI, cs.CL
- Published: December 10, 2025
- PDF: Download PDF