[Paper] 安全代理系统的策略编译器
发布: (2026年2月19日 GMT+8 02:57)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.16708v1
Overview
LLM‑driven agents 正在被赋予越来越敏感的职责——比如必须遵循严格升级规则的客服机器人,或需要遵守数据访问政策的自动合规检查器。将这些规则直接嵌入提示中非常脆弱;模型可能会直接忽视或绕过它们。本文介绍了 PCAS (Policy Compiler for Agentic Systems),一个框架,能够自动将任何现有的基于 LLM 的代理转化为 policy‑enforced 系统,确保每个操作都遵循正式规定的安全和工作流规则。
关键贡献
- 确定性策略执行 对于LLM代理,通过编译时插装步骤,实现不依赖模型内部推理。
- 依赖图状态模型 捕获工具调用、工具输出和消息之间的因果关联,使得能够精确跟踪多个代理之间的信息流动。
- 基于Datalog的策略语言 允许对传递性数据流和来源约束进行表达性、声明式的规范。
- 参考监视器 拦截所有代理行为,将其与已编译的策略进行检查,并在违规执行前阻止。
- 实证验证 在三个真实场景(提示注入防御、多代理药物警戒审批以及企业客服工作流)中进行,显示合规率从约48 %提升至>93 %,在所有最先进的LLM上,仪器化运行中零违规。
方法论
- 策略规范 – 安全工程师使用轻量级的 Datalog 风格语言编写规则。规则可以表达“如果数据 X 来自来源 Y,则绝不能发送给 Z”,或“药物不良事件报告必须在记录之前由高级分析员批准”。
- 系统插装 – PCAS 接收原始代理代码(或任何 LLM API 的包装器),并自动注入一个 参考监视器,记录每一个可观察事件(消息、工具调用、工具结果)。
- 依赖图构建 – 当代理运行时,监视器构建一个有向图,节点代表事件,边表示因果影响(例如,工具的输出依赖于之前的用户消息)。该图是用于策略评估的权威“状态”。
- 策略评估 – 每当代理尝试执行操作(发送消息、调用外部 API、写入存储)时,监视器使用已编译的 Datalog 规则查询该图。如果违反任何规则,操作将被阻止,并向代理返回错误。
- 编译保证 – 因为监视器在任何副作用发生之前强制执行策略,系统在理论上能够保持合规,无论底层 LLM 如何解释提示。
结果与发现
| 场景 | 基线合规率 | PCAS 启用后合规率 | 违规次数 (PCAS) |
|---|---|---|---|
| Prompt‑injection 防御 (LLM‑4) | 48 % | 93 % | 0 |
| 多代理药物警戒工作流 (LLM‑3.5) | 55 % | 96 % | 0 |
| 企业客户服务 (LLM‑4‑Turbo) | 51 % | 94 % | 0 |
- 政策合规性 在所有测试模型中显著提升,证明参考监视器能够可靠地阻止不允许的操作。
- 零误报:在已装配的运行中,满足政策的合法操作从未被错误阻止。
- 性能开销 仍然适中(每次交互的平均延迟增加 12–18 ms),使 PCAS 适用于实时服务。
实际意义
- 安全部署 – 公司现在可以在不担心巧妙提示规避内部控制的情况下发布 LLM 代理,因为强制执行是外部且确定性的。
- 监管对齐 – 具有严格数据处理规则的行业(医疗、金融、制药)可以直接在策略语言中编码 GDPR、HIPAA 或 FDA 风格的约束,并确信合规。
- 多代理协同 – 在一个代理的输出作为另一个代理输入的复杂流水线中,PCAS 的依赖图确保端到端追踪来源,防止意外泄漏或未授权升级。
- 快速原型 – 开发者可以保持现有 LLM 代码不变;PCAS 充当即插即用的包装器,显著降低加固代理所需的工程工作量。
- 可审计性 – 图和规则评估提供清晰、可查询的审计轨迹,简化事后调查并满足合规审计员的要求。
限制与未来工作
- 策略语言表达能力 – 虽然 Datalog 能覆盖许多来源和流动约束,但更细致的时间或概率策略可能需要扩展。
- 依赖图的可扩展性 – 极长的对话或高吞吐量的多代理系统可能导致图规模膨胀;增量剪枝策略是一个未解决的研究方向。
- 与闭源 LLM API 的集成 – 当前原型假设能够拦截所有工具调用;与商业 API(如 OpenAI、Anthropic)更紧密的集成可能需要供应商的合作。
- 面向用户的错误处理 – 当策略阻止某个操作时,代理目前返回通用错误;更丰富的反馈机制可以提升用户体验。
PCAS 表明,严格的编译时安全性可以引入快速发展的 LLM 代理领域,弥合强大生成模型与生产环境严格治理需求之间的差距。
作者
- Nils Palumbo
- Sarthak Choudhary
- Jihye Choi
- Prasad Chalasani
- Mihai Christodorescu
- Somesh Jha
论文信息
- arXiv ID: 2602.16708v1
- 分类: cs.CR, cs.AI, cs.MA
- 发表时间: 2026年2月18日
- PDF: 下载 PDF