[Paper] 安全代理系统的策略编译器

发布: 3天前 (2026年2月19日 GMT+8 02:57)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.16708v1

Overview

LLM‑driven agents 正在被赋予越来越敏感的职责——比如必须遵循严格升级规则的客服机器人，或需要遵守数据访问政策的自动合规检查器。将这些规则直接嵌入提示中非常脆弱；模型可能会直接忽视或绕过它们。本文介绍了 PCAS (Policy Compiler for Agentic Systems)，一个框架，能够自动将任何现有的基于 LLM 的代理转化为 policy‑enforced 系统，确保每个操作都遵循正式规定的安全和工作流规则。

关键贡献

确定性策略执行 对于LLM代理，通过编译时插装步骤，实现不依赖模型内部推理。
依赖图状态模型 捕获工具调用、工具输出和消息之间的因果关联，使得能够精确跟踪多个代理之间的信息流动。
基于Datalog的策略语言 允许对传递性数据流和来源约束进行表达性、声明式的规范。
参考监视器 拦截所有代理行为，将其与已编译的策略进行检查，并在违规执行前阻止。
实证验证 在三个真实场景（提示注入防御、多代理药物警戒审批以及企业客服工作流）中进行，显示合规率从约48 %提升至>93 %，在所有最先进的LLM上，仪器化运行中零违规。

方法论

策略规范 – 安全工程师使用轻量级的 Datalog 风格语言编写规则。规则可以表达“如果数据 X 来自来源 Y，则绝不能发送给 Z”，或“药物不良事件报告必须在记录之前由高级分析员批准”。
系统插装 – PCAS 接收原始代理代码（或任何 LLM API 的包装器），并自动注入一个 参考监视器，记录每一个可观察事件（消息、工具调用、工具结果）。
依赖图构建 – 当代理运行时，监视器构建一个有向图，节点代表事件，边表示因果影响（例如，工具的输出依赖于之前的用户消息）。该图是用于策略评估的权威“状态”。
策略评估 – 每当代理尝试执行操作（发送消息、调用外部 API、写入存储）时，监视器使用已编译的 Datalog 规则查询该图。如果违反任何规则，操作将被阻止，并向代理返回错误。
编译保证 – 因为监视器在任何副作用发生之前强制执行策略，系统在理论上能够保持合规，无论底层 LLM 如何解释提示。

结果与发现

场景	基线合规率	PCAS 启用后合规率
Prompt‑injection 防御 (LLM‑4)	48 %	93 %
多代理药物警戒工作流 (LLM‑3.5)	55 %	96 %
企业客户服务 (LLM‑4‑Turbo)	51 %	94 %

政策合规性 在所有测试模型中显著提升，证明参考监视器能够可靠地阻止不允许的操作。
零误报：在已装配的运行中，满足政策的合法操作从未被错误阻止。
性能开销 仍然适中（每次交互的平均延迟增加 12–18 ms），使 PCAS 适用于实时服务。

实际意义

安全部署 – 公司现在可以在不担心巧妙提示规避内部控制的情况下发布 LLM 代理，因为强制执行是外部且确定性的。
监管对齐 – 具有严格数据处理规则的行业（医疗、金融、制药）可以直接在策略语言中编码 GDPR、HIPAA 或 FDA 风格的约束，并确信合规。
多代理协同 – 在一个代理的输出作为另一个代理输入的复杂流水线中，PCAS 的依赖图确保端到端追踪来源，防止意外泄漏或未授权升级。
快速原型 – 开发者可以保持现有 LLM 代码不变；PCAS 充当即插即用的包装器，显著降低加固代理所需的工程工作量。
可审计性 – 图和规则评估提供清晰、可查询的审计轨迹，简化事后调查并满足合规审计员的要求。

限制与未来工作

策略语言表达能力 – 虽然 Datalog 能覆盖许多来源和流动约束，但更细致的时间或概率策略可能需要扩展。
依赖图的可扩展性 – 极长的对话或高吞吐量的多代理系统可能导致图规模膨胀；增量剪枝策略是一个未解决的研究方向。
与闭源 LLM API 的集成 – 当前原型假设能够拦截所有工具调用；与商业 API（如 OpenAI、Anthropic）更紧密的集成可能需要供应商的合作。
面向用户的错误处理 – 当策略阻止某个操作时，代理目前返回通用错误；更丰富的反馈机制可以提升用户体验。

PCAS 表明，严格的编译时安全性可以引入快速发展的 LLM 代理领域，弥合强大生成模型与生产环境严格治理需求之间的差距。

作者

Nils Palumbo
Sarthak Choudhary
Jihye Choi
Prasad Chalasani
Mihai Christodorescu
Somesh Jha

论文信息

arXiv ID: 2602.16708v1
分类: cs.CR, cs.AI, cs.MA
发表时间: 2026年2月18日
PDF: 下载 PDF

[Paper] 安全代理系统的策略编译器

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] MARS：Margin-Aware Reward-Modeling 与 Self-Refinement

[Paper] 挖掘与细化：优化电子商务搜索检索中的分级相关性

[Paper] 多轮人机协作与用户指定需求