[Paper] 安全代理系统的策略编译器

发布: (2026年2月19日 GMT+8 02:57)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.16708v1

Overview

LLM‑driven agents 正在被赋予越来越敏感的职责——比如必须遵循严格升级规则的客服机器人,或需要遵守数据访问政策的自动合规检查器。将这些规则直接嵌入提示中非常脆弱;模型可能会直接忽视或绕过它们。本文介绍了 PCAS (Policy Compiler for Agentic Systems),一个框架,能够自动将任何现有的基于 LLM 的代理转化为 policy‑enforced 系统,确保每个操作都遵循正式规定的安全和工作流规则。

关键贡献

  • 确定性策略执行 对于LLM代理,通过编译时插装步骤,实现不依赖模型内部推理。
  • 依赖图状态模型 捕获工具调用、工具输出和消息之间的因果关联,使得能够精确跟踪多个代理之间的信息流动。
  • 基于Datalog的策略语言 允许对传递性数据流和来源约束进行表达性、声明式的规范。
  • 参考监视器 拦截所有代理行为,将其与已编译的策略进行检查,并在违规执行前阻止。
  • 实证验证 在三个真实场景(提示注入防御、多代理药物警戒审批以及企业客服工作流)中进行,显示合规率从约48 %提升至>93 %,在所有最先进的LLM上,仪器化运行中零违规。

方法论

  1. 策略规范 – 安全工程师使用轻量级的 Datalog 风格语言编写规则。规则可以表达“如果数据 X 来自来源 Y,则绝不能发送给 Z”,或“药物不良事件报告必须在记录之前由高级分析员批准”。
  2. 系统插装 – PCAS 接收原始代理代码(或任何 LLM API 的包装器),并自动注入一个 参考监视器,记录每一个可观察事件(消息、工具调用、工具结果)。
  3. 依赖图构建 – 当代理运行时,监视器构建一个有向图,节点代表事件,边表示因果影响(例如,工具的输出依赖于之前的用户消息)。该图是用于策略评估的权威“状态”。
  4. 策略评估 – 每当代理尝试执行操作(发送消息、调用外部 API、写入存储)时,监视器使用已编译的 Datalog 规则查询该图。如果违反任何规则,操作将被阻止,并向代理返回错误。
  5. 编译保证 – 因为监视器在任何副作用发生之前强制执行策略,系统在理论上能够保持合规,无论底层 LLM 如何解释提示。

结果与发现

场景基线合规率PCAS 启用后合规率违规次数 (PCAS)
Prompt‑injection 防御 (LLM‑4)48 %93 %0
多代理药物警戒工作流 (LLM‑3.5)55 %96 %0
企业客户服务 (LLM‑4‑Turbo)51 %94 %0
  • 政策合规性 在所有测试模型中显著提升,证明参考监视器能够可靠地阻止不允许的操作。
  • 零误报:在已装配的运行中,满足政策的合法操作从未被错误阻止。
  • 性能开销 仍然适中(每次交互的平均延迟增加 12–18 ms),使 PCAS 适用于实时服务。

实际意义

  • 安全部署 – 公司现在可以在不担心巧妙提示规避内部控制的情况下发布 LLM 代理,因为强制执行是外部且确定性的。
  • 监管对齐 – 具有严格数据处理规则的行业(医疗、金融、制药)可以直接在策略语言中编码 GDPR、HIPAA 或 FDA 风格的约束,并确信合规。
  • 多代理协同 – 在一个代理的输出作为另一个代理输入的复杂流水线中,PCAS 的依赖图确保端到端追踪来源,防止意外泄漏或未授权升级。
  • 快速原型 – 开发者可以保持现有 LLM 代码不变;PCAS 充当即插即用的包装器,显著降低加固代理所需的工程工作量。
  • 可审计性 – 图和规则评估提供清晰、可查询的审计轨迹,简化事后调查并满足合规审计员的要求。

限制与未来工作

  • 策略语言表达能力 – 虽然 Datalog 能覆盖许多来源和流动约束,但更细致的时间或概率策略可能需要扩展。
  • 依赖图的可扩展性 – 极长的对话或高吞吐量的多代理系统可能导致图规模膨胀;增量剪枝策略是一个未解决的研究方向。
  • 与闭源 LLM API 的集成 – 当前原型假设能够拦截所有工具调用;与商业 API(如 OpenAI、Anthropic)更紧密的集成可能需要供应商的合作。
  • 面向用户的错误处理 – 当策略阻止某个操作时,代理目前返回通用错误;更丰富的反馈机制可以提升用户体验。

PCAS 表明,严格的编译时安全性可以引入快速发展的 LLM 代理领域,弥合强大生成模型与生产环境严格治理需求之间的差距。

作者

  • Nils Palumbo
  • Sarthak Choudhary
  • Jihye Choi
  • Prasad Chalasani
  • Mihai Christodorescu
  • Somesh Jha

论文信息

  • arXiv ID: 2602.16708v1
  • 分类: cs.CR, cs.AI, cs.MA
  • 发表时间: 2026年2月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »