【论文】ProbeLLM：自动化原则性诊断 LLM 失效

发布: 3天前 (2026年2月13日 GMT+8 22:33)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.12966v1

概览

大型语言模型（LLM）越来越大、能力也更强，但它们仍会以令人惊讶的方式出错。ProbeLLM 引入了一种系统的、预算感知的方式，自动发现不仅是孤立的 bug，而是一整套弱点——作者称之为 结构化失效模式。通过将探测视为层次搜索问题，该框架承诺提供更清晰、更可操作的视图，指出 LLM 需要改进的地方。

关键贡献

层次化蒙特卡罗树搜索（MCTS）用于探测 – 在全局探索新错误区域和局部细化重复模式之间取得平衡。
与基准无关的设计 – 可在任何下游任务中使用，无需手工构建测试套件。
工具增强的生成与验证 – 仅保留能够自动验证的测试用例，确保可靠的失败证据。
故障感知嵌入 + 边界感知归纳 – 将原始失败聚类为人类可读的“故障模式”，并具备明确的决策边界。
实证验证 – 在多个大型语言模型（如 GPT‑3.5、LLaMA‑2）上展示了比静态基准和先前探测方法更广泛、更干净、更细粒度的失败分布。

Source: …

方法论

问题框定 – 将探测视为一种 层次化 MCTS。根节点代表整个输入空间；每个子节点对应更具体的子区域（例如，特定的提示模式）。
预算分配 – 算法接收固定的探测预算（例如，1 万条生成的提示）。在每一步，它决定是探索新区域（全局）还是利用有前景的区域（局部）。
提示生成 – 使用 LLM 驱动的生成，并辅以外部工具（如计算器、知识库）来创建候选测试用例。
验证 – 每个生成的用例都会通过 验证器（基于规则或工具支持）进行检查，判断 LLM 的输出是否违反已知约束（例如，事实不一致、逻辑矛盾）。仅保留已验证的失败案例。
嵌入与聚类 – 将失败案例使用 故障感知嵌入 编码，捕获提示本身及错误性质。随后，边界感知归纳算法将它们划分为可解释的簇，每个簇代表一种独特的失败模式。

整个流水线全自动运行，只需待测的 LLM、验证工具包以及预算说明。

结果与发现

模型 / 基准	失败模式数量（ProbeLLM）	失败模式数量（静态套件）	已发现失败的平均精确率
GPT‑3.5（问答）	27	9	0.94
LLaMA‑2‑13B（摘要）	31	12	0.91
GPT‑4（代码）	22	8	0.96

更广的覆盖面 – ProbeLLM 能发现约 2–3 倍于传统静态基准的不同失败模式。
更清晰的信号 – 由于每个失败都经过验证，误报率降至 5 % 以下，而之前的自动探测误报率超过 15 %。
细粒度洞察 – 诱导的聚类揭示了微妙的模式（例如 “在多步推理中误解否定” 或 “在请求历史时间线时产生虚构日期”）。

总体而言，研究表明，采用原则性的探索策略能够绘制出更丰富、更可信的 LLM 弱点图谱。

实际意义

有针对性的模型调试 – 工程师可以优先修复整个失效模式，而不是追逐孤立的 bug，从而加速迭代周期。
持续评估流水线 – ProbeLLM 的预算受控、自动化特性使其适用于 CI/CD 环境，能够持续监控新模型的发布。
安全与合规 – 通过将失效根植于可验证的约束（例如法律或医学指南），组织可以生成符合审计要求的模型局限性证据。
提示工程 – 发现的失效模式往往指向系统性的提示模式，这些模式应当避免或重新设计，从而改进面向用户的 API。
基准设计 – 该框架可用于增强现有测试套件，确保在模型以比静态数据集更快的速度演进时，测试仍保持相关性。

限制与未来工作

验证依赖 – 发现的失败质量取决于可靠的、工具增强的验证器的可用性；缺乏此类工具的领域可能会导致覆盖率下降。
预算敏感性 – 虽然 MCTS 分配是有原则的，但在预算非常紧张的情况下，搜索可能会倾向于容易发现的失败，从而错过罕见但关键的模式。
聚类可解释性 – 诱导出的失败模式是人类可读的，但仍可能需要领域专家进行标注和处理。
未来方向 – 作者建议整合强化学习以动态调整预算，扩展工具套件以实现更丰富的验证，并将该方法应用于多模态模型（例如视觉‑语言模型）。

ProbeLLM 标志着将 LLM 评估从静态的“检查清单”转变为主动的、发现驱动的过程的一个步骤——开发者、产品团队和安全工程师可以立即开始利用这一方法。

作者

Yue Huang
Zhengzhe Jiang
Yuchen Ma
Yu Jiang
Xiangqi Wang
Yujun Zhou
Yuexing Hao
Kehan Guo
Pin‑Yu Chen
Stefan Feuerriegel
Xiangliang Zhang

论文信息

arXiv ID: 2602.12966v1
分类: cs.CL, cs.SE
出版时间: 2026年2月13日
PDF: 下载 PDF

【论文】ProbeLLM：自动化原则性诊断 LLM 失效

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 语义分块与自然语言的熵

[Paper] CoPE-VideoLM：用于高效视频语言模型的 Codec 原语

[Paper] 量化鲁棒 LLM 遗忘通过低秩适配

[Paper] OpenLID-v3: 提升近似语言识别的精度 —— 经验报告