[Paper] 项目 Ariadne：用于审计 LLM 代理忠实性的结构因果框架

发布: 2周前 (2026年1月6日 GMT+8 02:05)

6 min read

原文: arXiv

Source: arXiv - 2601.02314v1

概述

大型语言模型（LLM）代理正日益被部署用于自主的高风险决策——从代码生成到医疗分诊。虽然“Chain‑of‑Thought”（CoT）提示为这些代理提供了人类可读的推理轨迹，但我们仍不清楚该轨迹是否真正驱动最终答案，还是仅仅事后辩解。Project Ariadne 引入了一种结构因果框架，严格审计这些推理轨迹的忠实度，揭示了当今最先进模型中系统性的“忠实度差距”。

关键贡献

因果审计框架：利用结构因果模型（SCM）和 do‑演算对中间推理步骤进行干预，测量变化如何传播到最终答案。
因果敏感度 (φ) 指标：量化终端输出对每个推理节点的依赖程度。
违规密度 (ρ) 与因果解耦：用于检测代理内部逻辑与输出脱节的形式化定义（在事实/科学任务中ρ最高可达 0.77）。
Ariadne Score 基准：一个新的评估套件，对 LLM 代理在生成的思考链（CoT）与实际决策路径之间的一致性进行打分。
实证证据：表明主流 LLM 代理（如 GPT‑4、Claude、Llama 2）经常出现“推理剧场”——内部逻辑相互矛盾却给出相同答案。

方法论

Model as an SCM – LLM 的推理链被视为有向图，每个节点是文本前提或推理步骤。
Hard Interventions (do‑operations) – 作者系统性地翻转、否定或替换前提（例如，将 “All swans are white” 改为 “All swans are black”）。
Counterfactual Propagation – 每次干预后，模型被要求重新计算最终答案，而无需重新提示整个链条，从而隔离被修改节点的因果效应。
Metric Computation –
- Causal Sensitivity (φ) = |Δoutput| / |Δintervention|，衡量答案变化的程度。
- Violation Density (ρ) = φ ≈ 0 的节点占比，尽管内容相互矛盾。
Benchmarking – 使用一套事实、科学和推理任务来计算每个模型的 Ariadne Score。

该方法刻意保持 模型无关：它适用于任何能够接受 CoT 提示并在给定随机种子下返回确定性输出的 LLM。

结果与发现

模型	平均因果敏感度 (φ)	违规密度 (ρ)	显著失效模式
GPT‑4 (CoT)	0.31	0.62	否定关键前提后答案未改变
Claude‑2 (CoT)	0.27	0.68	对科学事实核查进行“推理戏剧化”
Llama 2‑70B (CoT)	0.22	0.77	数学文字题中违规密度高

忠实度差距：在所有测试领域中，代理的最终答案对内部推理的敏感性较弱，这表明 CoT 轨迹往往是装饰性层，而非因果驱动因素。
因果解耦：翻转本应在逻辑上颠倒答案的前提时，答案常保持不变，揭示出模型更依赖潜在的参数先验，而非显式链路。
Ariadne 分数：提供 0–1 的单一数值概括忠实度；当前表现最佳的模型得分低于 0.4，距离理想的 1.0 仍有很大差距。

实际意义

安全与合规: 对于受监管的行业（金融、医疗、自治系统），仅依赖 CoT 解释是不够的。审计员可以使用 Project Ariadne 来认证代理的推理在因果上与其决策相连。
调试 LLM 代理: 开发者可以定位“死”推理节点 (φ ≈ 0)，并重构提示或微调模型，使这些步骤产生影响。
提示工程: 该框架表明，强制因果依赖的提示策略（例如，“你必须基于以下前提给出答案”）可能提升忠实度。
基准测试与竞争: Ariadne Score 可以成为新的排行榜指标，鼓励社区构建既准确又可解释的代理。
工具链: 实现 do‑calculus 干预的开源库可以集成到现有的 LLM 评估流水线中（例如 🤗 Eval、OpenAI 的 Evals）。

限制与未来工作

可扩展性：硬干预需要对每个推理节点进行多次前向传播，对于长链或大型模型成本高昂。
提示敏感性：该方法假设输出是确定性的；基于温度的采样可能会模糊因果信号。
领域覆盖：实验聚焦于事实和科学任务；向创意或开放式生成的扩展仍未解决。
模型特定优化：某些架构（例如检索增强模型）可能需要调整的 SCM 表示。

未来方向

通过强化学习自动化干预选择。
将因果正则化整合到微调中以降低 ρ。
探索将 φ 与传统基于相似性的可解释性评分相结合的混合指标。

作者

Sourena Khanzadeh

论文信息

arXiv ID: 2601.02314v1
分类: cs.AI
出版日期: 2026年1月5日
PDF: 下载 PDF

[Paper] 项目 Ariadne：用于审计 LLM 代理忠实性的结构因果框架

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

未来方向

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] MetaboNet：最大公开可用的综合数据集，用于1型糖尿病管理