[Paper] Agentic 不确定性揭示 Agentic 过度自信

发布: (2026年2月7日 GMT+8 02:49)
8 分钟阅读
原文: arXiv

Source: arXiv:2602.06948v1

(请提供需要翻译的正文内容,我将按照要求保留源链接并将正文翻译成简体中文。)

概览

论文 Agentic Uncertainty Reveals Agentic Overconfidence 探讨了 AI 代理是否能够准确评估自己在给定任务上的成功概率。通过在不同阶段——任务开始前任务进行中以及任务完成后——对代理的自我估计成功概率进行 probing,作者发现代理普遍存在过度自信的系统性倾向,甚至有时会高出实际水平三倍。

令人惊讶的是,粗略的执行前估计往往比详细的执行后回顾更能有效区分成功与失败的运行。

关键贡献

  • 代理不确定性的正式定义 – 一个用于在多个执行点提取代理自身成功概率的框架。
  • 代理过度自信的实证证据,覆盖多种基于语言模型的代理,包括实际成功率低至 22 % 而预测成功率超过 70 % 的案例。
  • 反直觉发现执行前的置信分数(信息更少)能够比执行后的分数更清晰地区分成功与失败的尝试。
  • 对抗性提示技术,将置信查询重新构造为“寻找 bug”任务,在所有测试方法中实现了最佳校准。
  • 综合基准,涵盖多个标准 AI 代理任务(代码生成、推理、规划)以及多种模型系列(GPT‑3.5、Claude、Llama‑2)。

方法论

  1. 任务套件 – 作者挑选了一组多样化的基准任务(例如,求解 SAT 问题、编写 Python 函数、规划路线)。每个任务都有明确的二元结果:成功失败

  2. 置信度抽取 – 对于每个任务实例,代理需要三次输出一个概率 (p \in [0,1]),表示它将成功的可能性:

    • 执行前 – 在看到任何输入或进行任何计算之前。
    • 执行中 – 在生成中间解(例如,草稿代码片段)之后。
    • 执行后 – 在给出最终答案并可选地自行检查之后。

    该概率通过一个提示模板获得,模板要求模型“在 0‑100 的尺度上对你的置信度进行评分”。

  3. 校准指标 – 作者计算标准校准曲线、Expected Calibration Error (ECE)Brier scores,以比较预测概率与实际结果之间的差异。

  4. 对抗性提示 – 为了提升校准,他们引入了一个“找错”提示:

    “假设你的答案可能包含错误;隐藏的 bug 存在的可能性有多大?”

    这迫使模型采取更批判的立场。

  5. 统计分析 – 采用配对 t 检验和 bootstrap 置信区间来评估执行前、执行中和执行后置信度之间的差异是否具有统计显著性。

结果与发现

  • 系统性过度自信 – 在所有模型中,平均预测成功率为 0.58,而真实成功率为 0.34,导致 ECE 为 0.21。最极端的情况:某模型仅在 22 % 的时间成功,却报告 77 % 的成功概率。

  • 预执行优于后执行 – 在 9 类任务中有 7 类,预执行置信分数在区分成功与失败时产生的 曲线下面积 (AUC) 值高于后执行分数(平均 AUC:0.710.66)。优势虽小但持续。

  • 对抗性提示提升校准 – 查错提示将 ECE 降低约 30 %(从 0.21 降至 0.15),并降低了 Brier 分数,表明置信度与实际之间的匹配更紧密。

  • 模型规模重要,但非线性 – 更大的模型倾向于校准略好,但即使是最大的(GPT‑4 级别)仍表现出明显的过度自信。

  • 中期执行分数噪声大 – 由于代理仅看到部分解答,其置信度剧烈波动,几乎没有预测能力。

实际意义

  • 风险感知部署 – 开发自主代理(例如代码助手、规划机器人)的开发者不应盲目信任原始置信度分数。引入校准的不确定性估计可以防止生产环境中的代价高昂的失败。

  • 安全网与人机协同 – 当校准后的置信度低于安全阈值,或对抗性“漏洞发现”置信度出现峰值时,系统可以触发人工审查。

  • 提示工程以提升自我评估 – 将置信度查询重新表述为错误检测任务,是一种低成本、模型无关的方式,可在无需额外训练的情况下获得更可靠的自评。

  • 基准测试标准 – 该论文的方法论可以成为未来基于大语言模型的代理的标准测试套件,鼓励社区同时报告性能和校准后的不确定性。

  • 资源分配 – 由于执行前的置信度已经提供了有用的区分度,开发者可以基于低成本的置信度检查提前决定是否分配计算资源(例如运行更昂贵的验证步骤)。

限制与未来工作

限制

  • 任务范围 – 本研究聚焦于相对较短、定义明确的任务,尚不清楚其发现能否推广到开放式生成(例如长篇写作)。
  • 单次提示 – 仅检验了少数提示模板;更丰富的提示策略或少量示例(few‑shot)可能会影响校准效果。
  • 模型多样性 – 虽然评估了几种流行的 LLM 系列,但未包含更新的多模态或指令微调模型。
  • 动态环境 – 与不断变化的环境交互的实时代理(如机器人)可能表现出不同的不确定性动态。

未来方向

  1. 将不确定性校准整合到训练目标中。
  2. 将框架扩展到多步规划视野。
  3. 探索集成或贝叶斯方法以进一步降低过度自信。

作者

  • Jean Kaddour
  • Srijan Patel
  • Gbètondji Dovonon
  • Leo Richter
  • Pasquale Minervini
  • Matt J. Kusner

论文信息

项目详情
arXiv ID2602.06948v1
分类cs.AI, cs.LG
发表时间2026年2月6日
PDF下载 PDF
Back to Blog

相关文章

阅读更多 »

FunctionGemma 微调指南

markdown 2026年1月16日 在Agentic AI的世界中,调用工具的能力将自然语言转换为可执行的软件操作。上个月我们发布了……