[Paper] 项目 Ariadne:用于审计 LLM 代理忠实性的结构因果框架

发布: (2026年1月6日 GMT+8 02:05)
6 min read
原文: arXiv

Source: arXiv - 2601.02314v1

概述

大型语言模型(LLM)代理正日益被部署用于自主的高风险决策——从代码生成到医疗分诊。虽然“Chain‑of‑Thought”(CoT)提示为这些代理提供了人类可读的推理轨迹,但我们仍不清楚该轨迹是否真正驱动最终答案,还是仅仅事后辩解。Project Ariadne 引入了一种结构因果框架,严格审计这些推理轨迹的忠实度,揭示了当今最先进模型中系统性的“忠实度差距”。

关键贡献

  • 因果审计框架:利用结构因果模型(SCM)和 do‑演算对中间推理步骤进行干预,测量变化如何传播到最终答案。
  • 因果敏感度 (φ) 指标:量化终端输出对每个推理节点的依赖程度。
  • 违规密度 (ρ) 与因果解耦:用于检测代理内部逻辑与输出脱节的形式化定义(在事实/科学任务中ρ最高可达 0.77)。
  • Ariadne Score 基准:一个新的评估套件,对 LLM 代理在生成的思考链(CoT)与实际决策路径之间的一致性进行打分。
  • 实证证据:表明主流 LLM 代理(如 GPT‑4、Claude、Llama 2)经常出现“推理剧场”——内部逻辑相互矛盾却给出相同答案。

方法论

  1. Model as an SCM – LLM 的推理链被视为有向图,每个节点是文本前提或推理步骤。
  2. Hard Interventions (do‑operations) – 作者系统性地翻转、否定或替换前提(例如,将 “All swans are white” 改为 “All swans are black”)。
  3. Counterfactual Propagation – 每次干预后,模型被要求重新计算最终答案,而无需重新提示整个链条,从而隔离被修改节点的因果效应。
  4. Metric Computation
    • Causal Sensitivity (φ) = |Δoutput| / |Δintervention|,衡量答案变化的程度。
    • Violation Density (ρ) = φ ≈ 0 的节点占比,尽管内容相互矛盾。
  5. Benchmarking – 使用一套事实、科学和推理任务来计算每个模型的 Ariadne Score。

该方法刻意保持 模型无关:它适用于任何能够接受 CoT 提示并在给定随机种子下返回确定性输出的 LLM。

结果与发现

模型平均因果敏感度 (φ)违规密度 (ρ)显著失效模式
GPT‑4 (CoT)0.310.62否定关键前提后答案未改变
Claude‑2 (CoT)0.270.68对科学事实核查进行“推理戏剧化”
Llama 2‑70B (CoT)0.220.77数学文字题中违规密度高
  • 忠实度差距:在所有测试领域中,代理的最终答案对内部推理的敏感性较弱,这表明 CoT 轨迹往往是装饰性层,而非因果驱动因素。
  • 因果解耦:翻转本应在逻辑上颠倒答案的前提时,答案常保持不变,揭示出模型更依赖潜在的参数先验,而非显式链路。
  • Ariadne 分数:提供 0–1 的单一数值概括忠实度;当前表现最佳的模型得分低于 0.4,距离理想的 1.0 仍有很大差距。

实际意义

  • 安全与合规: 对于受监管的行业(金融、医疗、自治系统),仅依赖 CoT 解释是不够的。审计员可以使用 Project Ariadne 来认证代理的推理在因果上与其决策相连。
  • 调试 LLM 代理: 开发者可以定位“死”推理节点 (φ ≈ 0),并重构提示或微调模型,使这些步骤产生影响。
  • 提示工程: 该框架表明,强制因果依赖的提示策略(例如,“你必须基于以下前提给出答案”)可能提升忠实度。
  • 基准测试与竞争: Ariadne Score 可以成为新的排行榜指标,鼓励社区构建既准确又可解释的代理。
  • 工具链: 实现 do‑calculus 干预的开源库可以集成到现有的 LLM 评估流水线中(例如 🤗 Eval、OpenAI 的 Evals)。

限制与未来工作

  • 可扩展性:硬干预需要对每个推理节点进行多次前向传播,对于长链或大型模型成本高昂。
  • 提示敏感性:该方法假设输出是确定性的;基于温度的采样可能会模糊因果信号。
  • 领域覆盖:实验聚焦于事实和科学任务;向创意或开放式生成的扩展仍未解决。
  • 模型特定优化:某些架构(例如检索增强模型)可能需要调整的 SCM 表示。

未来方向

  • 通过强化学习自动化干预选择。
  • 将因果正则化整合到微调中以 降低 ρ。
  • 探索将 φ 与传统基于相似性的可解释性评分相结合的混合指标。

作者

  • Sourena Khanzadeh

论文信息

  • arXiv ID: 2601.02314v1
  • 分类: cs.AI
  • 出版日期: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »