[Paper] SARC:面向代理式 AI 系统的基于架构的治理框架
Source: arXiv - 2605.07728v1
Overview
本文提出了 SARC,一种运行时治理框架,将监管约束直接嵌入使用工具的“agentic” AI 系统的执行循环中。通过将约束视为一等对象——与状态、动作和奖励并列——SARC 实现了实时的强制执行、审计和升级,弥合了政策意图与实际系统行为之间的差距。
关键贡献
- Constraint‑as‑Specification Model – 定义了一个丰富的模式(source, class, predicate, verification point, response protocol, operating point),可编译为可执行的钩子。
- Four Enforcement Hooks – 引入了 Pre‑Action Gate、Action‑Time Monitor、Post‑Action Auditor 和 Escalation Router,共同保证在每个代理步骤的前、期间、后检查硬约束。
- Formal Guarantees – 证明了规范与执行轨迹保持同步所需的最小不变式,并说明为何简单的奖励惩罚无法取代硬运行时检查。
- Multi‑Agent Extension – 提供了约束传播、权限交叉以及轨迹树归因的机制,使得复杂工作流能够端到端审计。
- Prototype & Empirical Evaluation – 实现了审计检查器,并在采购任务场景下运行可复现的合成基准(50 个随机种子),展示了零硬约束违规,并相较于 policy‑as‑code 基线实现了 89.5 % 的软窗口超额减少。
方法论
-
规范语言 – 作者设计了一种声明式的类 JSON 格式,其中每个约束列出:
- Source(来源):规则的制定者(例如监管机构、内部政策)。
- Class(类别):硬约束 vs. 软约束,安全 vs. 合规等。
- Predicate(谓词):对代理状态或行为的布尔条件。
- Verification Point(验证点):谓词必须在何时评估(前置动作、执行中、后置动作)。
- Response Protocol(响应协议):违规时的处理方式(拒绝、限流、记录、升级)。
- Operating Point(操作点):约束附着的循环阶段。
-
编译为执行钩子 – 规范会自动转换为代码,将四个钩子插入代理的执行周期:
- Pre‑Action Gate(前置动作门)在动作发送到工具之前阻止不允许的操作。
- Action‑Time Monitor(动作时监控)实时监视工具输出流,以捕捉执行过程中出现的违规。
- Post‑Action Auditor(后置动作审计)在最终结果产生后验证是否仍满足剩余约束。
- Escalation Router(升级路由)将违规转发至更高级别的策略引擎或人工审查员。
-
形式不变式检查 – 使用轨迹理论,作者定义了 spec‑trace correspondence(规范‑轨迹对应性):每条观测到的执行轨迹必须包含一个证明,表明所有适用的谓词在其指定的验证点上均为真。
-
多代理工作流集成 – 约束沿有向无环图在代理之间传播;交叉的授权通过优先级格进行解析,并在每一步记录归属元数据以保持可审计性。
-
实验设置 – 构建了一个合成的采购环境,代理通过外部 API 请求报价、进行谈判并最终签订合同。作者生成 50 个随机种子,注入不同程度的“谓词噪声”(例如模糊谓词)和强制执行失败,并将 SARC 与四种基线进行比较:
(i) 仅事后审计,
(ii) 输出过滤,
(iii) 静态工作流规则,
(iv) 代码即策略但无运行时钩子。
结果与发现
| 指标 | SARC | Post‑hoc Audit | Output Filtering | Workflow Rules | Policy‑as‑Code |
|---|---|---|---|---|---|
| 硬约束违规(精确谓词) | 0 | 12 % 的运行 | 8 % | 5 % | 7 % |
| 软窗口超额(PAA 限流) | 相较于 Policy‑as‑Code 减少 89.5 % | 减少 45 % | 减少 60 % | 减少 70 % | — |
| 强制执行失败影响 | 违规随强制堆栈错误呈线性增长 | 违规随环境机会呈超线性增长 | — | — | — |
| 运行时开销(每步平均) | ~12 ms(≈总延迟的 3%) | ~5 ms | ~7 ms | ~6 ms | ~4 ms |
关键要点
- 硬违规为零 当谓词精确时,证实四钩架构可靠地阻止非法操作。
- 软约束合规性 显著提升,因为 Pre‑Action Gate 和 Action‑Time Monitor 能在违规累积前进行限流或重塑行为。
- 错误传播 表现可预测:任何遗漏的检查都可归因于特定的强制执行层,简化调试和策略优化。
实际影响
- 受监管的 AI 部署 – 为金融、采购或医疗保健构建自主代理的公司可以嵌入 SARC,以在运行时满足合规审计员的要求,而不是依赖事后报告。
- 工具使用安全网 – 将 LLM 驱动的代理与外部 API(例如代码执行、网页浏览)集成的开发者可以定义 “no‑network‑outside‑whitelist” 或 “budget‑cap” 约束,这些约束会在请求离开沙箱之前强制执行。
- 可观测性与审计 – 内置的追踪归因功能可以生成自动化审计日志,将每个决策映射回其来源策略,从而在调查过程中减少人工取证工作。
- 策略即代码的演进 – SARC 的声明式规范可以与代码一起进行版本控制,使 CI 流水线能够验证新策略在编译时不会破坏现有的执行钩子。
- 多代理编排 – 在复杂的流水线中(例如 LLM、规划器和执行器的链),SARC 的传播和权限交叉机制确保整个工作流始终遵守单一的高级合规规则。
限制与未来工作
- Synthetic Evaluation – 实验使用受控的采购沙箱;实际部署可能会暴露出此处未捕获的边缘情况(网络延迟、非确定性工具响应)。
- Predicate Noise Sensitivity – 虽然作者探讨了模糊谓词,但框架仍依赖于明确、可判定的条件;模糊的法律语言可能导致过度保守的阻断。
- Scalability of Enforcement Stack – 添加大量约束会增加每一步的检查次数;未来工作应探索自适应批处理或硬件加速验证。
- Human‑in‑the‑Loop Escalation – 当前的升级路由器将请求转发至通用策略引擎;将细致的人类决策(例如基于风险的分流)集成仍是一个未解决的挑战。
- Formal Verification Integration – 将 SARC 扩展为可与定理证明器或模型检查器互操作,能够为安全关键领域提供更强的保证。
作者
- Gaston Besanson
论文信息
- arXiv ID: 2605.07728v1
- 分类: cs.SE, cs.CY
- 出版日期: 2026年5月8日
- PDF: 下载 PDF