[Paper] 思考即行动：通过多轮交互在 LLM 中构建高效的 World Model 推理

发布: 2个月前 (2025年11月29日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.23476v1

概览

论文 “Thinking by Doing: Building Efficient World Model Reasoning in LLMs via Multi‑turn Interaction” 解决了 LLM 驱动的智能体的核心问题：如何让语言模型学习环境的动态，而不是被迫进入僵硬的逐步推理链。通过让模型“行动”并获得真实反馈，作者展示了 LLM 可以更快地内化世界模型，并且所需的交互回合大幅减少。

主要贡献

WMAct 框架 – 一个轻量级方案，使 LLM 通过做而非预先结构化的逻辑步骤进行推理。
奖励重新缩放 – 根据动作的有效性动态调整奖励信号，鼓励模型削减冗余步骤。
交互频率退火 – 逐步收紧允许的最大交互回合数，迫使模型将知识压缩到内部表征中。
经验验证 在经典规划领域（Sokoban、Maze、Taxi）展示了单回合解法，而之前的方法需要多轮交互。
可迁移性 – 学到的推理技能能够推广到更复杂、未见过的环境，并提升一系列推理基准的表现。

方法论

问题框架 – 将世界模型推理视为 LLM（智能体）与模拟环境（教师）之间的 多回合 对话。每一回合包括动作提议、环境反馈和奖励。
自由形式交互 – 与以往强制模型遵循固定 “思考‑计划‑执行” 模板的工作不同，WMAct 允许模型生成任何它认为有用的文本动作。环境仅返回下一个状态和一个标量奖励。
奖励重新缩放 – 将原始奖励乘以一个反映 动作效能 的因子：使智能体更接近目标的动作会获得提升，而浪费的移动会被惩罚。此重塑信号引导模型朝着简洁、目的明确的行为发展。
退火交互预算 – 训练开始时对回合数设定宽松上限（例如 10）。每个 epoch 后上限逐步降低（如 10 → 8 → 5 …）。模型因此必须在更少的外部提示下完成任务，实质上“内化”了世界动态。
训练循环 – 使用基于强化学习的更新（类似 PPO）对 LLM 进行微调，奖励使用重新缩放后的值，而环境保持为所选域的确定性模拟器。

结果与发现

领域	先前多回合基线（平均回合）	WMAct（平均回合）	成功率 ↑
Sokoban	4.7	1.2	+18%
Maze	6.3	1.0	+22%
Taxi	5.1	1.3	+15%

单回合掌握：在退火后，模型能够在单次交互中解决多数实例，表明其已构建内部世界模型。
冗余减少：奖励重新缩放机制削减了不必要的来回，对话更短，计算成本更低。
跨域迁移：在未见过的更大迷宫以及一组推理谜题（如逻辑推理、空间推理）上评估时，WMAct 训练的模型相较基线 LLM 智能体提升了 10‑12% 的绝对准确率。

实际意义

更快的智能体部署 – 更少的交互回合意味着更低的延迟和更便宜的 API 使用成本，适用于机器人、游戏 AI 或自主导航的规划任务。
资源高效的微调 – 退火调度消除了对大规模多回合数据集的需求；少量交互数据即可教会模型环境的物理规律。
更好的泛化能力 – 通过迫使模型内化动态，开发者可以期待在环境略有变化（如新地图布局或奖励结构改变）时仍保持稳健行为。
即插即用 – WMAct 与模型无关，可应用于任何指令微调的 LLM（GPT‑3.5、LLaMA‑2、Claude），只需极少代码改动，因而对构建 “思考‑通过‑行动” 助手的产品团队极具吸引力。

局限性与未来工作

仅限确定性模拟器 – 实验基于完全确定性的环境；随机或部分可观测的世界可能需要额外的不确定性处理。
奖励设计敏感性 – 奖励重新缩放的效果依赖于精心设计的效能度量；不恰当的缩放会导致训练不稳定。
向高维动作的可扩展性 – 当前设置使用离散动作空间（上下左右移动）。将 WMAct 扩展到连续控制（如机器人手臂扭矩）仍是未解挑战。
未来方向 – 作者建议结合基于模型的 RL 技术，将学习到的世界模型与 WMAct 的交互驱动学习融合，并在真实机器人平台上测试，以应对传感器噪声和延迟等因素。

作者

Bao Shu
Yan Cai
Jianjian Sun
Chunrui Han
En Yu
Liang Zhao
Jingcheng Hu
Yinmin Zhang
Haoran Lv
Yuang Peng
Zheng Ge
Xiangyu Zhang
Daxin Jiang
Xiangyu Yue

论文信息

arXiv ID: 2511.23476v1
分类: cs.AI
发布日期: 2025 年 11 月 28 日
PDF: Download PDF

[Paper] 思考即行动：通过多轮交互在 LLM 中构建高效的 World Model 推理

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] 进步的代价：算法效率与 AI 推理成本下降

[Paper] Physics-Informed Neural Networks 用于热物性属性检索

【论文】ASTRO：自适应拼接基于动力学引导的轨迹展开