[Paper] LLM CHESS:通过国际象棋对LLM的推理和指令遵循进行基准测试

发布: (2025年12月2日 GMT+8 02:51)
7 min read
原文: arXiv

Source: arXiv - 2512.01992v1

Overview

本文提出了 LLM CHESS,一个新基准,用于测试大型语言模型(LLM)在动态交互环境中的推理与指令遵循能力——具体表现为与随机对手下棋。通过将经典棋盘游戏转化为多回合的“代理”任务,作者揭示了当前模型在规划、一致性保持以及避免幻觉走法方面的不足,提供了更贴近真实世界推理表现的衡量方式。

Key Contributions

  • 新颖的评估框架:将国际象棋转化为逐步指令遵循的挑战。
  • 全面的行为指标(胜负率、走法合法性、走法质量、幻觉行为、游戏长度),超越了静态准确率。
  • 排行榜与 Elo‑式评分:对 50 多个开源和闭源模型进行排名,便于与传统棋类引擎直接比较。
  • 推理 vs. 非推理划分的证据:即使对手刻意弱,最先进模型之间仍呈现出明显的推理能力差异。
  • 开源发布:完整实验流水线、游戏数据集和评估脚本均已开源,促进可复现性和后续研究。

Methodology

  1. 游戏设置 – 每个 LLM 作为白方,对阵一个“随机”对手,后者在所有合法走法中均匀抽取。这保持了基线对手的简单性,同时仍要求模型生成连贯且合法的走法序列。
  2. 提示设计 – 模型收到简短指令(“请用标准代数记谱法给出你的下一步走法”)以及当前棋盘的 Forsyth‑Edwards Notation(FEN)表示。每走一步后,棋盘状态会更新并重新输入模型。
  3. 指标收集 – 对每一回合,框架记录:
    • 合法性 – 所提走法是否合法。
    • 质量 – 通过 Stockfish 引擎(深度 2)评估走法强度。
    • 幻觉 – 任何不对应有效走法的输出(如散文、无关文字)。
    • 游戏时长 – 终止前的走子数量(胜、负、和或非法走法)。
  4. Elo 估算 – 对表现最好的模型,作者让它们与可配置的 Stockfish 引擎(不同水平)对弈,并计算 Elo 评分,将原始胜负数据转化为熟悉的竞争指标。
  5. 排名与排行榜 – 所有模型在公开排行榜上根据上述指标综合排名,便于快速可视化比较。

Results & Findings

  • 性能差异大 – 在 50 多个模型中,只有少数(如 GPT‑4、Claude‑2、LLaMA‑2‑70B‑Chat)能够持续产生合法走法并取得正的胜率。
  • 推理模型表现更佳 – 明确经过链式思考或工具使用训练的模型(例如使用“推理”提示的模型)优于普通指令遵循模型,验证了基准对推理能力的敏感性。
  • 幻觉仍然存在 – 即使是顶级模型也偶尔会输出非走法文本,导致游戏提前结束。
  • Elo 分数揭示差距 – 最好的 LLM 大约在 1500–1700 Elo,相当于低中等水平的人类玩家;多数模型低于 1000,说明经常出现非法或荒谬的走法。
  • 动态特性防止过拟合 – 由于每局游戏会根据模型的前序行为演进,单纯记忆静态数据集效果有限,性能不会快速饱和。

Practical Implications

  • 工具增强的代理 – 开发需要进行多步规划的 LLM 助手(如代码生成流水线、自治机器人)可以使用 LLM CHESS 作为代理,评估模型在顺序决策方面的表现。
  • 安全性与可靠性检查 – 幻觉指标突显了可能转化为现实风险的失效模式(例如发出无效的 API 调用),引入类似检查可提升系统鲁棒性。
  • 微调基准 – 开放的框架使从业者能够在棋局交互循环上进行微调,或许能够提升模型在非游戏领域(如工作流自动化或策略游戏 AI)中的规划能力。
  • Elo‑式报告 – 将 LLM 表现转化为 Elo 分数,为产品经理向利益相关者直观传达模型能力提供了类似于 AI 游戏机器人评估的方式。

Limitations & Future Work

  • 对手过于简单 – 随机走子可能不足以考验模型的战略深度;更强的对手可以暴露更多弱点。
  • 领域特异性 – 国际象棋规则高度明确,向不那么正式的领域(如自然语言规划)迁移时可能需要额外验证。
  • 计算成本 – 为大型模型运行大量对局消耗资源,限制了小团队的快速迭代。
  • 未来方向 – 作者建议将基准扩展到其他回合制环境(如围棋、实时策略游戏),并加入工具使用(如调用外部引擎),以研究混合推理流水线。

Authors

  • Sai Kolasani
  • Maxim Saplin
  • Nicholas Crispino
  • Kyle Montgomery
  • Jared Quincy Davis
  • Matei Zaharia
  • Chi Wang
  • Chenguang Wang

Paper Information

  • arXiv ID: 2512.01992v1
  • Categories: cs.AI, cs.CL
  • Published: December 1, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »