[Paper] LLMs 在 Agentic 场景中如何失败?对各种 LLMs 在 Agentic 模拟中的成功与失败情境的定性分析
发布: (2025年12月8日 GMT+8 20:27)
8 min read
原文: arXiv
Source: arXiv - 2512.07497v1
概览
论文 How Do LLMs Fail In Agentic Scenarios? 深入探讨了大型语言模型(LLM)在被要求自主行动时为何会出错——例如“能够自行读取文件、执行 SQL 查询或操作电子表格的 AI 助手”。通过分析 900 条执行轨迹(覆盖三种主流模型),作者揭示了区分流畅、可靠的 AI 代理与经常卡在指令上的隐藏模式。
关键贡献
- 引入 Kamiwaza Agentic Merit Index (KAMI) v0.1,一种记录逐步轨迹而非仅最终得分的基准,支持细粒度的失败分析。
- 比较三种代表性 LLM(Granite 4 Small、Llama 4 Maverick、DeepSeek V3.1)在四个真实工具使用任务上的表现:文件系统导航、文本抽取、CSV 分析和 SQL 查询。
- 识别四类重复出现的失败原型,这些原型在不同模型规模或架构下均会出现。
- 展示规模并非唯一因素:一个 400 B 参数的模型在不确定性驱动任务上仅略优于 32 B 参数模型,而强化学习微调是 DeepSeek 可靠性的主要来源。
- 提出具体的评估维度(交互式落地、恢复行为、环境感知适配),供未来的代理基准使用。
方法论
- 基准设计(KAMI v0.1) – 作者构建了一套模拟“代理”任务,需要多次工具调用(例如打开文件、解析内容、将结果输入 SQL 查询)。每次实验记录模型的每一步决策、工具调用和响应。
- 模型选择 – 选取三款开源 LLM,覆盖不同规模和训练方式:
- Granite 4 Small(约 32 B 参数)
- Llama 4 Maverick(约 400 B 参数)
- DeepSeek V3.1(约 70 B 参数,经过 RL 微调)
- 任务场景 – 覆盖四个领域:
- 文件系统 – 定位、读取并修改文件。
- 文本抽取 – 从非结构化文档中提取特定片段。
- CSV 分析 – 计算聚合、过滤行、表连接。
- SQL – 生成并执行针对模拟数据库的查询。
- 轨迹分析 – 作者没有只汇总单一准确率,而是手动检查每条轨迹,将成功与失败归类为行为模式。
- 失败原型编码 – 预先定义四种失败类型,并在出现新模式时迭代细化。
结果与发现
| 模型 | 整体成功率* | 主要优势 | 主要弱点 |
|---|---|---|---|
| Granite 4 Small | ~58 % | 对确定性文件读取处理良好 | 对模糊提示表现差;经常出现“过早行动” |
| Llama 4 Maverick | ~62 % | 对不确定性处理稍好 | 仍易出现“过度帮助”与上下文污染 |
| DeepSeek V3.1 | ~78 % | 恢复能力强,干扰错误少 | 在高强度工具调用下偶尔脆弱 |
*成功 = 在允许的工具调用次数内完成任务并给出正确的最终答案。
四种发现的失败原型
- 未落地的过早行动 – 模型在确认必要上下文之前就发起工具调用(例如在确认表名存在前就查询数据库)。
- 过度帮助 – 代理自行捏造缺失实体(如虚构列名)以维持对话,导致隐蔽的逻辑错误。
- 干扰导致的上下文污染 – 提示或前置步骤中的无关信息污染模型推理,使其追逐死路。
- 高负载下的脆弱执行 – 当所需工具调用次数超过一定阈值时,模型内部状态退化,出现调用丢失或指令格式错误。
简而言之,模型规模并未保证韧性;DeepSeek 的 RL 后训练赋予了决定性优势,表明针对性的微调比单纯增大参数量更有助于代理的可靠性。
实际意义
- 企业 AI 助手 – 构建内部机器人(如数据检索或报告生成)的公司应优先考虑强化学习微调和显式验证步骤,而不是仅仅扩大基础模型规模。
- 工具使用 SDK – SDK 设计者可以嵌入“护栏”(例如在 SQL 调用前进行模式验证),提前捕获过早行动,降低第一类失败的影响。
- 提示工程 – 将提示结构化以隔离相关上下文,并在工具调用前明确请求确认,可缓解过度帮助和干扰污染。
- 监控与恢复 – 部署时应记录完整执行轨迹(如 KAMI 所做),并在轨迹出现“脆弱执行”模式时自动回滚或重试。
- 基准标准 – 社区可采用 KAMI 风格的轨迹级评估,在将 LLM 驱动的代理投入生产前发现隐藏缺陷。
局限性与未来工作
- 合成环境 – 基准在受控仿真中运行;真实系统可能出现网络延迟、权限错误或更丰富的数据模态,尚未测试。
- 模型多样性 – 仅分析了三款模型;将研究扩展至更新的开源和闭源 LLM(如 GPT‑4o、Claude)可验证这些原型的普适性。
- 自动化失败分类 – 当前分析依赖人工轨迹检查;未来可训练元模型在大规模上自动标记四种失败类型。
- 用户在环场景 – 本研究假设完全自主的代理;加入间歇性人工反馈可能揭示额外的鲁棒性策略。
通过聚焦 LLM 如何 出错而非仅仅 多好,本研究为构建在日常开发者工作流和企业流水线中可信赖的 AI 代理提供了路线图。
作者
- JV Roig
论文信息
- arXiv ID: 2512.07497v1
- 分类: cs.AI, cs.SE
- 发布时间: 2025 年 12 月 8 日
- PDF: Download PDF