[Paper] LLMs 在 Agentic 场景中如何失败？对各种 LLMs 在 Agentic 模拟中的成功与失败情境的定性分析

发布: 1周前 (2025年12月8日 GMT+8 20:27)

8 min read

原文: arXiv

Source: arXiv - 2512.07497v1

概览

论文 How Do LLMs Fail In Agentic Scenarios? 深入探讨了大型语言模型（LLM）在被要求自主行动时为何会出错——例如“能够自行读取文件、执行 SQL 查询或操作电子表格的 AI 助手”。通过分析 900 条执行轨迹（覆盖三种主流模型），作者揭示了区分流畅、可靠的 AI 代理与经常卡在指令上的隐藏模式。

关键贡献

引入 Kamiwaza Agentic Merit Index (KAMI) v0.1，一种记录逐步轨迹而非仅最终得分的基准，支持细粒度的失败分析。
比较三种代表性 LLM（Granite 4 Small、Llama 4 Maverick、DeepSeek V3.1）在四个真实工具使用任务上的表现：文件系统导航、文本抽取、CSV 分析和 SQL 查询。
识别四类重复出现的失败原型，这些原型在不同模型规模或架构下均会出现。
展示规模并非唯一因素：一个 400 B 参数的模型在不确定性驱动任务上仅略优于 32 B 参数模型，而强化学习微调是 DeepSeek 可靠性的主要来源。
提出具体的评估维度（交互式落地、恢复行为、环境感知适配），供未来的代理基准使用。

方法论

基准设计（KAMI v0.1） – 作者构建了一套模拟“代理”任务，需要多次工具调用（例如打开文件、解析内容、将结果输入 SQL 查询）。每次实验记录模型的每一步决策、工具调用和响应。
模型选择 – 选取三款开源 LLM，覆盖不同规模和训练方式：
- Granite 4 Small（约 32 B 参数）
- Llama 4 Maverick（约 400 B 参数）
- DeepSeek V3.1（约 70 B 参数，经过 RL 微调）
任务场景 – 覆盖四个领域：
- 文件系统 – 定位、读取并修改文件。
- 文本抽取 – 从非结构化文档中提取特定片段。
- CSV 分析 – 计算聚合、过滤行、表连接。
- SQL – 生成并执行针对模拟数据库的查询。
轨迹分析 – 作者没有只汇总单一准确率，而是手动检查每条轨迹，将成功与失败归类为行为模式。
失败原型编码 – 预先定义四种失败类型，并在出现新模式时迭代细化。

结果与发现

模型	整体成功率*	主要优势	主要弱点
Granite 4 Small	~58 %	对确定性文件读取处理良好	对模糊提示表现差；经常出现“过早行动”
Llama 4 Maverick	~62 %	对不确定性处理稍好	仍易出现“过度帮助”与上下文污染
DeepSeek V3.1	~78 %	恢复能力强，干扰错误少	在高强度工具调用下偶尔脆弱

*成功 = 在允许的工具调用次数内完成任务并给出正确的最终答案。

四种发现的失败原型

未落地的过早行动 – 模型在确认必要上下文之前就发起工具调用（例如在确认表名存在前就查询数据库）。
过度帮助 – 代理自行捏造缺失实体（如虚构列名）以维持对话，导致隐蔽的逻辑错误。
干扰导致的上下文污染 – 提示或前置步骤中的无关信息污染模型推理，使其追逐死路。
高负载下的脆弱执行 – 当所需工具调用次数超过一定阈值时，模型内部状态退化，出现调用丢失或指令格式错误。

简而言之，模型规模并未保证韧性；DeepSeek 的 RL 后训练赋予了决定性优势，表明针对性的微调比单纯增大参数量更有助于代理的可靠性。

实际意义

企业 AI 助手 – 构建内部机器人（如数据检索或报告生成）的公司应优先考虑强化学习微调和显式验证步骤，而不是仅仅扩大基础模型规模。
工具使用 SDK – SDK 设计者可以嵌入“护栏”（例如在 SQL 调用前进行模式验证），提前捕获过早行动，降低第一类失败的影响。
提示工程 – 将提示结构化以隔离相关上下文，并在工具调用前明确请求确认，可缓解过度帮助和干扰污染。
监控与恢复 – 部署时应记录完整执行轨迹（如 KAMI 所做），并在轨迹出现“脆弱执行”模式时自动回滚或重试。
基准标准 – 社区可采用 KAMI 风格的轨迹级评估，在将 LLM 驱动的代理投入生产前发现隐藏缺陷。

局限性与未来工作

合成环境 – 基准在受控仿真中运行；真实系统可能出现网络延迟、权限错误或更丰富的数据模态，尚未测试。
模型多样性 – 仅分析了三款模型；将研究扩展至更新的开源和闭源 LLM（如 GPT‑4o、Claude）可验证这些原型的普适性。
自动化失败分类 – 当前分析依赖人工轨迹检查；未来可训练元模型在大规模上自动标记四种失败类型。
用户在环场景 – 本研究假设完全自主的代理；加入间歇性人工反馈可能揭示额外的鲁棒性策略。

通过聚焦 LLM 如何出错而非仅仅多好，本研究为构建在日常开发者工作流和企业流水线中可信赖的 AI 代理提供了路线图。

作者

JV Roig

论文信息

arXiv ID: 2512.07497v1
分类: cs.AI, cs.SE
发布时间: 2025 年 12 月 8 日
PDF: Download PDF

[Paper] LLMs 在 Agentic 场景中如何失败？对各种 LLMs 在 Agentic 模拟中的成功与失败情境的定性分析

概览

关键贡献

方法论

结果与发现

四种发现的失败原型

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] DiffusionBrowser：通过多分支解码器实现交互式 Diffusion 预览

[Paper] 前馈 3D 编辑通过 Text-Steerable Image-to-3D

[论文] 面向个性化文本到图像生成的方向性 Textual Inversion

[Paper] 有机合成步骤生成的科学推理模型