[Paper] 思考即行动:通过多轮交互在 LLM 中构建高效的 World Model 推理

发布: (2025年11月29日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2511.23476v1

概览

论文 “Thinking by Doing: Building Efficient World Model Reasoning in LLMs via Multi‑turn Interaction” 解决了 LLM 驱动的智能体的核心问题:如何让语言模型 学习 环境的动态,而不是被迫进入僵硬的逐步推理链。通过让模型“行动”并获得真实反馈,作者展示了 LLM 可以更快地内化世界模型,并且所需的交互回合大幅减少。

主要贡献

  • WMAct 框架 – 一个轻量级方案,使 LLM 通过 而非预先结构化的逻辑步骤进行推理。
  • 奖励重新缩放 – 根据动作的有效性动态调整奖励信号,鼓励模型削减冗余步骤。
  • 交互频率退火 – 逐步收紧允许的最大交互回合数,迫使模型将知识压缩到内部表征中。
  • 经验验证 在经典规划领域(Sokoban、Maze、Taxi)展示了单回合解法,而之前的方法需要多轮交互。
  • 可迁移性 – 学到的推理技能能够推广到更复杂、未见过的环境,并提升一系列推理基准的表现。

方法论

  1. 问题框架 – 将世界模型推理视为 LLM(智能体)与模拟环境(教师)之间的 多回合 对话。每一回合包括动作提议、环境反馈和奖励。
  2. 自由形式交互 – 与以往强制模型遵循固定 “思考‑计划‑执行” 模板的工作不同,WMAct 允许模型生成任何它认为有用的文本动作。环境仅返回下一个状态和一个标量奖励。
  3. 奖励重新缩放 – 将原始奖励乘以一个反映 动作效能 的因子:使智能体更接近目标的动作会获得提升,而浪费的移动会被惩罚。此重塑信号引导模型朝着简洁、目的明确的行为发展。
  4. 退火交互预算 – 训练开始时对回合数设定宽松上限(例如 10)。每个 epoch 后上限逐步降低(如 10 → 8 → 5 …)。模型因此必须在更少的外部提示下完成任务,实质上“内化”了世界动态。
  5. 训练循环 – 使用基于强化学习的更新(类似 PPO)对 LLM 进行微调,奖励使用重新缩放后的值,而环境保持为所选域的确定性模拟器。

结果与发现

领域先前多回合基线(平均回合)WMAct(平均回合)成功率 ↑
Sokoban4.71.2+18%
Maze6.31.0+22%
Taxi5.11.3+15%
  • 单回合掌握:在退火后,模型能够在单次交互中解决多数实例,表明其已构建内部世界模型。
  • 冗余减少:奖励重新缩放机制削减了不必要的来回,对话更短,计算成本更低。
  • 跨域迁移:在未见过的更大迷宫以及一组推理谜题(如逻辑推理、空间推理)上评估时,WMAct 训练的模型相较基线 LLM 智能体提升了 10‑12% 的绝对准确率。

实际意义

  • 更快的智能体部署 – 更少的交互回合意味着更低的延迟和更便宜的 API 使用成本,适用于机器人、游戏 AI 或自主导航的规划任务。
  • 资源高效的微调 – 退火调度消除了对大规模多回合数据集的需求;少量交互数据即可教会模型环境的物理规律。
  • 更好的泛化能力 – 通过迫使模型内化动态,开发者可以期待在环境略有变化(如新地图布局或奖励结构改变)时仍保持稳健行为。
  • 即插即用 – WMAct 与模型无关,可应用于任何指令微调的 LLM(GPT‑3.5、LLaMA‑2、Claude),只需极少代码改动,因而对构建 “思考‑通过‑行动” 助手的产品团队极具吸引力。

局限性与未来工作

  • 仅限确定性模拟器 – 实验基于完全确定性的环境;随机或部分可观测的世界可能需要额外的不确定性处理。
  • 奖励设计敏感性 – 奖励重新缩放的效果依赖于精心设计的效能度量;不恰当的缩放会导致训练不稳定。
  • 向高维动作的可扩展性 – 当前设置使用离散动作空间(上下左右移动)。将 WMAct 扩展到连续控制(如机器人手臂扭矩)仍是未解挑战。
  • 未来方向 – 作者建议结合基于模型的 RL 技术,将学习到的世界模型与 WMAct 的交互驱动学习融合,并在真实机器人平台上测试,以应对传感器噪声和延迟等因素。

作者

  • Bao Shu
  • Yan Cai
  • Jianjian Sun
  • Chunrui Han
  • En Yu
  • Liang Zhao
  • Jingcheng Hu
  • Yinmin Zhang
  • Haoran Lv
  • Yuang Peng
  • Zheng Ge
  • Xiangyu Zhang
  • Daxin Jiang
  • Xiangyu Yue

论文信息

  • arXiv ID: 2511.23476v1
  • 分类: cs.AI
  • 发布日期: 2025 年 11 月 28 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »