[Paper] 思考即行动:通过多轮交互在 LLM 中构建高效的 World Model 推理
发布: (2025年11月29日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2511.23476v1
概览
论文 “Thinking by Doing: Building Efficient World Model Reasoning in LLMs via Multi‑turn Interaction” 解决了 LLM 驱动的智能体的核心问题:如何让语言模型 学习 环境的动态,而不是被迫进入僵硬的逐步推理链。通过让模型“行动”并获得真实反馈,作者展示了 LLM 可以更快地内化世界模型,并且所需的交互回合大幅减少。
主要贡献
- WMAct 框架 – 一个轻量级方案,使 LLM 通过 做 而非预先结构化的逻辑步骤进行推理。
- 奖励重新缩放 – 根据动作的有效性动态调整奖励信号,鼓励模型削减冗余步骤。
- 交互频率退火 – 逐步收紧允许的最大交互回合数,迫使模型将知识压缩到内部表征中。
- 经验验证 在经典规划领域(Sokoban、Maze、Taxi)展示了单回合解法,而之前的方法需要多轮交互。
- 可迁移性 – 学到的推理技能能够推广到更复杂、未见过的环境,并提升一系列推理基准的表现。
方法论
- 问题框架 – 将世界模型推理视为 LLM(智能体)与模拟环境(教师)之间的 多回合 对话。每一回合包括动作提议、环境反馈和奖励。
- 自由形式交互 – 与以往强制模型遵循固定 “思考‑计划‑执行” 模板的工作不同,WMAct 允许模型生成任何它认为有用的文本动作。环境仅返回下一个状态和一个标量奖励。
- 奖励重新缩放 – 将原始奖励乘以一个反映 动作效能 的因子:使智能体更接近目标的动作会获得提升,而浪费的移动会被惩罚。此重塑信号引导模型朝着简洁、目的明确的行为发展。
- 退火交互预算 – 训练开始时对回合数设定宽松上限(例如 10)。每个 epoch 后上限逐步降低(如 10 → 8 → 5 …)。模型因此必须在更少的外部提示下完成任务,实质上“内化”了世界动态。
- 训练循环 – 使用基于强化学习的更新(类似 PPO)对 LLM 进行微调,奖励使用重新缩放后的值,而环境保持为所选域的确定性模拟器。
结果与发现
| 领域 | 先前多回合基线(平均回合) | WMAct(平均回合) | 成功率 ↑ |
|---|---|---|---|
| Sokoban | 4.7 | 1.2 | +18% |
| Maze | 6.3 | 1.0 | +22% |
| Taxi | 5.1 | 1.3 | +15% |
- 单回合掌握:在退火后,模型能够在单次交互中解决多数实例,表明其已构建内部世界模型。
- 冗余减少:奖励重新缩放机制削减了不必要的来回,对话更短,计算成本更低。
- 跨域迁移:在未见过的更大迷宫以及一组推理谜题(如逻辑推理、空间推理)上评估时,WMAct 训练的模型相较基线 LLM 智能体提升了 10‑12% 的绝对准确率。
实际意义
- 更快的智能体部署 – 更少的交互回合意味着更低的延迟和更便宜的 API 使用成本,适用于机器人、游戏 AI 或自主导航的规划任务。
- 资源高效的微调 – 退火调度消除了对大规模多回合数据集的需求;少量交互数据即可教会模型环境的物理规律。
- 更好的泛化能力 – 通过迫使模型内化动态,开发者可以期待在环境略有变化(如新地图布局或奖励结构改变)时仍保持稳健行为。
- 即插即用 – WMAct 与模型无关,可应用于任何指令微调的 LLM(GPT‑3.5、LLaMA‑2、Claude),只需极少代码改动,因而对构建 “思考‑通过‑行动” 助手的产品团队极具吸引力。
局限性与未来工作
- 仅限确定性模拟器 – 实验基于完全确定性的环境;随机或部分可观测的世界可能需要额外的不确定性处理。
- 奖励设计敏感性 – 奖励重新缩放的效果依赖于精心设计的效能度量;不恰当的缩放会导致训练不稳定。
- 向高维动作的可扩展性 – 当前设置使用离散动作空间(上下左右移动)。将 WMAct 扩展到连续控制(如机器人手臂扭矩)仍是未解挑战。
- 未来方向 – 作者建议结合基于模型的 RL 技术,将学习到的世界模型与 WMAct 的交互驱动学习融合,并在真实机器人平台上测试,以应对传感器噪声和延迟等因素。
作者
- Bao Shu
- Yan Cai
- Jianjian Sun
- Chunrui Han
- En Yu
- Liang Zhao
- Jingcheng Hu
- Yinmin Zhang
- Haoran Lv
- Yuang Peng
- Zheng Ge
- Xiangyu Zhang
- Daxin Jiang
- Xiangyu Yue
论文信息
- arXiv ID: 2511.23476v1
- 分类: cs.AI
- 发布日期: 2025 年 11 月 28 日
- PDF: Download PDF