[Paper] 项目 Ariadne:用于审计 LLM 代理忠实性的结构因果框架
发布: (2026年1月6日 GMT+8 02:05)
6 min read
原文: arXiv
Source: arXiv - 2601.02314v1
概述
大型语言模型(LLM)代理正日益被部署用于自主的高风险决策——从代码生成到医疗分诊。虽然“Chain‑of‑Thought”(CoT)提示为这些代理提供了人类可读的推理轨迹,但我们仍不清楚该轨迹是否真正驱动最终答案,还是仅仅事后辩解。Project Ariadne 引入了一种结构因果框架,严格审计这些推理轨迹的忠实度,揭示了当今最先进模型中系统性的“忠实度差距”。
关键贡献
- 因果审计框架:利用结构因果模型(SCM)和 do‑演算对中间推理步骤进行干预,测量变化如何传播到最终答案。
- 因果敏感度 (φ) 指标:量化终端输出对每个推理节点的依赖程度。
- 违规密度 (ρ) 与因果解耦:用于检测代理内部逻辑与输出脱节的形式化定义(在事实/科学任务中ρ最高可达 0.77)。
- Ariadne Score 基准:一个新的评估套件,对 LLM 代理在生成的思考链(CoT)与实际决策路径之间的一致性进行打分。
- 实证证据:表明主流 LLM 代理(如 GPT‑4、Claude、Llama 2)经常出现“推理剧场”——内部逻辑相互矛盾却给出相同答案。
方法论
- Model as an SCM – LLM 的推理链被视为有向图,每个节点是文本前提或推理步骤。
- Hard Interventions (
do‑operations) – 作者系统性地翻转、否定或替换前提(例如,将 “All swans are white” 改为 “All swans are black”)。 - Counterfactual Propagation – 每次干预后,模型被要求重新计算最终答案,而无需重新提示整个链条,从而隔离被修改节点的因果效应。
- Metric Computation –
- Causal Sensitivity (φ) = |Δoutput| / |Δintervention|,衡量答案变化的程度。
- Violation Density (ρ) = φ ≈ 0 的节点占比,尽管内容相互矛盾。
- Benchmarking – 使用一套事实、科学和推理任务来计算每个模型的 Ariadne Score。
该方法刻意保持 模型无关:它适用于任何能够接受 CoT 提示并在给定随机种子下返回确定性输出的 LLM。
结果与发现
| 模型 | 平均因果敏感度 (φ) | 违规密度 (ρ) | 显著失效模式 |
|---|---|---|---|
| GPT‑4 (CoT) | 0.31 | 0.62 | 否定关键前提后答案未改变 |
| Claude‑2 (CoT) | 0.27 | 0.68 | 对科学事实核查进行“推理戏剧化” |
| Llama 2‑70B (CoT) | 0.22 | 0.77 | 数学文字题中违规密度高 |
- 忠实度差距:在所有测试领域中,代理的最终答案对内部推理的敏感性较弱,这表明 CoT 轨迹往往是装饰性层,而非因果驱动因素。
- 因果解耦:翻转本应在逻辑上颠倒答案的前提时,答案常保持不变,揭示出模型更依赖潜在的参数先验,而非显式链路。
- Ariadne 分数:提供 0–1 的单一数值概括忠实度;当前表现最佳的模型得分低于 0.4,距离理想的 1.0 仍有很大差距。
实际意义
- 安全与合规: 对于受监管的行业(金融、医疗、自治系统),仅依赖 CoT 解释是不够的。审计员可以使用 Project Ariadne 来认证代理的推理在因果上与其决策相连。
- 调试 LLM 代理: 开发者可以定位“死”推理节点 (φ ≈ 0),并重构提示或微调模型,使这些步骤产生影响。
- 提示工程: 该框架表明,强制因果依赖的提示策略(例如,“你必须基于以下前提给出答案”)可能提升忠实度。
- 基准测试与竞争: Ariadne Score 可以成为新的排行榜指标,鼓励社区构建既准确又可解释的代理。
- 工具链: 实现 do‑calculus 干预的开源库可以集成到现有的 LLM 评估流水线中(例如 🤗 Eval、OpenAI 的 Evals)。
限制与未来工作
- 可扩展性:硬干预需要对每个推理节点进行多次前向传播,对于长链或大型模型成本高昂。
- 提示敏感性:该方法假设输出是确定性的;基于温度的采样可能会模糊因果信号。
- 领域覆盖:实验聚焦于事实和科学任务;向创意或开放式生成的扩展仍未解决。
- 模型特定优化:某些架构(例如检索增强模型)可能需要调整的 SCM 表示。
未来方向
- 通过强化学习自动化干预选择。
- 将因果正则化整合到微调中以 降低 ρ。
- 探索将 φ 与传统基于相似性的可解释性评分相结合的混合指标。
作者
- Sourena Khanzadeh
论文信息
- arXiv ID: 2601.02314v1
- 分类: cs.AI
- 出版日期: 2026年1月5日
- PDF: 下载 PDF