[论文] 大语言模型中先天规划的局限性

发布: (2025年11月27日 GMT+8 01:08)
7 min read
原文: arXiv

Source: arXiv - 2511.21591v1

Overview

大型语言模型(LLM)凭借生成代码、回答问题甚至解谜的能力让人眼前一亮——但它们自行规划的能力仍然模糊不清。本文让 LLM 参与经典的 8‑拼图任务,这一任务要求模型跟踪可变的棋盘状态并规划通往目标的路径,且不能依赖外部计算。作者发现,尽管使用了巧妙的提示技巧,现有 LLM 在“天生”推理时仍在基本规划上跌跌撞撞。

Key Contributions

  • 系统化评估规划:使用 8‑拼图作为干净、逐步的基准,检验有状态推理。
  • 比较四种主流 LLM(包括 GPT‑4 级别和开源替代品),在三种提示风格下进行对比:Zero‑Shot、Chain‑of‑Thought (CoT) 和 Algorithm‑of‑Thought (AoT)。
  • 分层纠错反馈实验:让模型在被告知移动无效后修正其步骤。
  • 引入外部“移动验证器”:仅提供合法移动,测试最小化工具辅助是否能弥合差距。
  • 定性分析:指出两类常见失效模式:内部状态表征脆弱以及弱启发式规划导致循环或无进展的移动。

Methodology

  1. 任务选择 – 选择 8‑拼图(在 3×3 棋盘上滑动拼块),因为每一步都可验证,最优解长度已知,且问题需要显式的状态跟踪。
  2. 提示方案
    • Zero‑Shot:单一指令要求解谜。
    • Chain‑of‑Thought:要求模型“思考出声”,列出中间棋盘状态。
    • Algorithm‑of‑Thought:提示提供高层算法框架(例如 “当未解决时,将空格向目标方向移动”。)
  3. 反馈循环 – 每生成一步后,系统检查合法性。若移动非法,模型收到纠正信息并重新尝试,最多固定次数。
  4. 移动验证器条件 – 辅助模块仅提供当前棋盘的合法移动集合,迫使模型从受限的动作空间中选择。
  5. 指标 – 成功率(解开的谜题数)、平均步数以及计算成本(生成的 token 数)。

Results & Findings

  • 基线表现(无反馈)整体偏低:成功率在 2 % 到 9 % 之间,取决于模型和提示风格。
  • 纠错反馈提升了部分组合的成功率(例如 GPT‑4 在 CoT 下上升至约 22 %),但代价是大量额外 token,且往往伴随冗长、间接的推理链。
  • 移动验证器——即使模型只获得合法动作——仍未能解开任何谜题。模型要么重复移动、进入循环,要么选择的动作并未使棋盘更接近目标。
  • 失效分析揭示了两大缺陷:
    1. 脆弱的内部状态——模型经常“忘记”当前棋盘配置,导致非法移动。
    2. 弱启发式——缺乏显式搜索或距离度量,模型的移动选择基本上是随机的,甚至适得其反。

Practical Implications

  • 工具增强的代理:仅依赖 LLM 的内部推理进行规划(例如自主代理在 UI 工作流中的导航)风险较大。必须加入外部状态追踪或搜索模块。
  • 提示工程的局限:虽然 CoT 和 AoT 能促使更好行为,但它们无法替代系统化的规划组件。开发者应把提示视为引导,而非正确性的保证。
  • 成本考量:迭代反馈的 token 开销在生产环境中会迅速变得不可接受,尤其是实时应用。
  • AI 助手的设计:对于代码重构、UI 自动化或游戏 AI 等任务,将轻量级规划器(如 A* 搜索)与 LLM 结合,比纯语言管线更可靠。

Limitations & Future Work

  • 任务范围——本研究聚焦于单一、已充分理解的拼图;在状态表示更丰富的领域结果可能不同。
  • 模型选择——仅评估了四种模型;更新或专门面向规划的 LLM 可能表现不同。
  • 反馈深度——纠错循环被限制在较少次数;更深的迭代细化或许能提升成功率,但代价更高。
  • 作者提出的未来方向包括:
    • 在 LLM 上下文中嵌入显式状态变量(例如通过结构化提示或记忆模块)。
    • 将 LLM 与经典搜索算法或可微分规划器耦合。
    • 探索多模态反馈(视觉棋盘快照)以加强状态落地。

底线:LLM 是出色的讲故事者,但在没有外部辅助的严格、逐步规划方面仍显不足。对构建自主系统的开发者而言,结论很明确——将语言模型与专用规划工具结合,才能实现稳健的真实世界性能。

Authors

  • Charles Schepanowski
  • Charles Ling

Paper Information

  • arXiv ID: 2511.21591v1
  • Categories: cs.AI
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »