大型语言模型推理失败
Source: Hacker News
摘要
大型语言模型(LLM)已经展现出卓越的推理能力,在广泛的任务上取得了令人印象深刻的成果。尽管取得了这些进展,显著的推理失误仍然存在,甚至在看似简单的情境中也会出现。为了系统地理解并解决这些不足,我们提供了首个专门针对 LLM 推理失误的综合调研。
我们提出了一套新颖的分类框架,将推理分为具身(embodied)和非具身(non‑embodied)两大类,后者进一步细分为非正式(直觉)推理和正式(逻辑)推理。与此同时,我们沿着互补的轴线将推理失误划分为三种类型:
- 根本性失误:源于 LLM 架构本身,广泛影响下游任务。
- 特定应用限制:在特定领域中表现出来的局限。
- 鲁棒性问题:在细微变化下表现出不一致的性能。
对于每一种推理失误,我们给出明确的定义,分析已有研究,探讨根本原因,并提出缓解策略。通过统一零散的研究工作,我们的调研提供了对 LLM 推理系统性弱点的结构化视角,为未来构建更强大、更可靠、更具鲁棒性的推理能力指明方向。
我们同时在 GitHub 上发布了一个关于 LLM 推理失误的完整研究作品集合,地址为 https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures。