大型语言模型推理失败

发布: 3天前 (2026年2月21日 GMT+8 16:56)

2 分钟阅读

Source: Hacker News

摘要

大型语言模型（LLM）已经展现出卓越的推理能力，在广泛的任务上取得了令人印象深刻的成果。尽管取得了这些进展，显著的推理失误仍然存在，甚至在看似简单的情境中也会出现。为了系统地理解并解决这些不足，我们提供了首个专门针对 LLM 推理失误的综合调研。

我们提出了一套新颖的分类框架，将推理分为具身（embodied）和非具身（non‑embodied）两大类，后者进一步细分为非正式（直觉）推理和正式（逻辑）推理。与此同时，我们沿着互补的轴线将推理失误划分为三种类型：

对于每一种推理失误，我们给出明确的定义，分析已有研究，探讨根本原因，并提出缓解策略。通过统一零散的研究工作，我们的调研提供了对 LLM 推理系统性弱点的结构化视角，为未来构建更强大、更可靠、更具鲁棒性的推理能力指明方向。

我们同时在 GitHub 上发布了一个关于 LLM 推理失误的完整研究作品集合，地址为 https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures。