[Paper] 행동으로 사고하기: Multi‑turn Interaction을 통한 LLM의 Efficient World Model Reasoning 구축

발행: (2025년 11월 29일 오전 03:59 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2511.23476v1

Overview

논문 “Thinking by Doing: Building Efficient World Model Reasoning in LLMs via Multi‑turn Interaction” 은 LLM 기반 에이전트의 핵심 문제인 언어 모델이 환경의 역학을 강제된 단계별 추론 체인 없이 학습하도록 하는 방법을 다룹니다. 모델이 “행동”하고 실제 피드백을 받게 함으로써, 저자들은 LLM이 세계 모델을 훨씬 빠르게, 그리고 훨씬 적은 상호작용 턴으로 내재화할 수 있음을 보여줍니다.

Key Contributions

  • WMAct framework – LLM이 사전 구조화된 논리 단계가 아니라 행동을 통해 추론하도록 하는 경량 레시피.
  • Reward rescaling – 행동의 효율성에 따라 보상 신호를 동적으로 조정하여 모델이 불필요한 단계를 줄이도록 유도.
  • Interaction‑frequency annealing – 허용되는 최대 상호작용 턴 수를 점진적으로 축소해 모델이 지식을 내부 표현에 압축하도록 강제.
  • Empirical validation – 고전적인 플래닝 도메인(Sokoban, Maze, Taxi)에서 기존 방법이 여러 라운드를 필요로 했던 문제를 단일 턴으로 해결함을 입증.
  • Transferability – 학습된 추론 능력이 더 복잡하고 보지 못한 환경에 일반화되며, 다양한 추론 벤치마크에서 성능을 향상시킴.

Methodology

  1. Problem framing – 세계 모델 추론을 LLM(에이전트)과 시뮬레이션 환경(교사) 사이의 다중 턴 대화로 취급합니다. 각 턴은 행동 제안, 환경 피드백, 보상으로 구성됩니다.
  2. Free‑form interaction – 기존 연구가 고정된 “think‑plan‑act” 템플릿을 강요하는 것과 달리, WMAct는 모델이 유용하다고 판단하는 어떠한 텍스트 행동도 생성하도록 허용합니다. 환경은 다음 상태와 스칼라 보상만 반환합니다.
  3. Reward rescaling – 원시 보상에 행동 효율성을 반영하는 계수를 곱합니다: 목표에 가까워지는 행동은 보강되고, 낭비된 움직임은 벌점이 부여됩니다. 이 재구성된 신호는 모델이 간결하고 목적 지향적인 행동을 하도록 유도합니다.
  4. Annealing interaction budget – 학습 초기에 넉넉한 턴 제한(예: 10)을 두고, 에포크가 진행될수록 제한을 감소시킵니다(예: 10 → 8 → 5 …). 따라서 모델은 외부 힌트를 적게 받아도 과제를 해결하도록 학습하게 되며, 이는 세계 역학을 “내재화”하는 과정과 같습니다.
  5. Training loop – LLM은 재조정된 보상을 사용해 강화학습 스타일(PPO‑유사) 업데이트로 파인튜닝되며, 환경은 선택된 도메인에 대해 결정론적 시뮬레이터로 유지됩니다.

Results & Findings

DomainPrior multi‑turn baseline (avg. turns)WMAct (avg. turns)Success Rate ↑
Sokoban4.71.2+18%
Maze6.31.0+22%
Taxi5.11.3+15%
  • Single‑turn mastery: Annealing 후 모델은 많은 사례를 단일 상호작용으로 해결하며, 내부 세계 모델을 구축했음을 시사합니다.
  • Reduced redundancy: 보상 재조정 메커니즘이 불필요한 왕복을 줄여 대화 길이를 단축하고 계산 비용을 낮춥니다.
  • Cross‑domain transfer: 보지 못한 더 큰 미로와 논리 추론·공간 추론 퍼즐 집합에서 WMAct‑학습 모델이 기존 LLM 에이전트보다 절대 정확도 10‑12%p 높게 평가됩니다.

Practical Implications

  • Faster agent deployment – 상호작용 라운드가 적어 지연 시간이 감소하고, 로봇공학, 게임 AI, 자율 내비게이션 등에서 LLM을 플래너로 사용할 때 API 비용이 절감됩니다.
  • Resource‑efficient fine‑tuning – Annealing 스케줄 덕분에 방대한 다중 턴 데이터셋이 필요 없으며, 적은 양의 상호작용 데이터만으로도 환경 물리법칙을 모델에 가르칠 수 있습니다.
  • Better generalization – 모델이 역학을 내재화하도록 강제함으로써, 지도 레이아웃 변화나 보상 구조 변동 등 환경이 약간 바뀌어도 보다 견고한 행동을 기대할 수 있습니다.
  • Plug‑and‑play – WMAct는 모델에 독립적이며, GPT‑3.5, LLaMA‑2, Claude 등 어느 인스트럭션‑튜닝된 LLM에도 최소한의 코드 수정만으로 적용 가능해 “thinking‑by‑doing” 어시스턴트를 구축하는 제품 팀에게 매력적입니다.

Limitations & Future Work

  • Deterministic simulators only – 실험은 완전 결정론적 환경에만 국한되며, 확률적이거나 부분 관측 가능한 세계에서는 추가적인 불확실성 처리 기법이 필요합니다.
  • Reward design sensitivity – 보상 재조정의 효과는 효율성 메트릭 설계에 크게 좌우되며, 부적절한 스케일링은 학습을 불안정하게 만들 수 있습니다.
  • Scalability to high‑dimensional actions – 현재 설정은 이산 행동 공간(위/아래/좌/우 이동)만 사용합니다. 연속 제어(예: 로봇 팔 토크)로 확장하는 것은 아직 해결되지 않은 과제입니다.
  • Future directions – 저자들은 모델 기반 RL 기법을 통합해 학습된 세계 모델과 WMAct의 상호작용 기반 학습을 결합하고, 센서 노이즈와 지연이 존재하는 실제 로봇 플랫폼에서 테스트하는 방향을 제시합니다.

Authors

  • Bao Shu
  • Yan Cai
  • Jianjian Sun
  • Chunrui Han
  • En Yu
  • Liang Zhao
  • Jingcheng Hu
  • Yinmin Zhang
  • Haoran Lv
  • Yuang Peng
  • Zheng Ge
  • Xiangyu Zhang
  • Daxin Jiang
  • Xiangyu Yue

Paper Information

  • arXiv ID: 2511.23476v1
  • Categories: cs.AI
  • Published: November 28, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »