[Paper] 治理你无法观察的事物：面向自主 AI 代理的自适应运行时治理

发布: 1天前 (2026年4月28日 GMT+8 00:46)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.24686v1

Overview

该论文提出了一种在运行时保持自主 AI 代理安全的新方法，即使其内部代码从未改变。通过估计动作的未观测风险并将其与代理处理该风险的能力进行比较，作者将治理从事后“事后”式的被动过程转变为主动的运行时安全网。

信息可行性原则 – 一条形式化规则：仅当主体的安全裕度（其容量 S(x)）超过隐藏风险的上界 ĤB(x) = U(x) + SB(x) + RG(x) 时，行为才被允许。
主体可行性框架 – 基于 Aubin 的可行性理论，定义安全运行的三个必要属性：
1. 监控 (P1) – 对可观测信号进行持续观察。
2. 预判 (P2) – 在隐藏风险显现之前进行预测。
3. 单调约束 (P3) – 逐步收紧约束，绝不放宽。
RiskGate – 一个具体实现，具备以下功能：
- 使用统计估计器（KL‑散度、段落‑对‑其余的 z 检验、序列模式匹配）来计算风险上界。
- 提供 安全失效的单调流水线，在必要时能够关闭主体（紧急停止开关）。
- 生成取值范围为 [-1, +1] 的标量 可行性指数 (VI)，并给出一阶预测 t*，实现从被动响应到主动预测的治理。
对现有 AI 主体失效分类法的 理论覆盖，表明这三项属性共同既是必要也是充分条件，以防止已记录的失效模式。
参考开源实现（随论文发布的代码），可插入现有自主系统进行实验验证。

正式风险建模 – 作者将隐藏风险分解为三个组成部分：
- U(x)：来自有限观测的不确定性。
- SB(x)：漂移引起的偏差（例如，对抗性漂移）。
- RG(x)：来自未知动态的剩余风险。
  这些被组合成界限 ĤB(x)。
可行性理论骨干 – 使用 Aubin 的可行性理论，他们定义了一个 调节映射，将代理的当前状态映射到一组可接受的动作。该映射是单调的：一旦某个动作被禁止，除非风险估计显著下降，否则保持禁止。
统计估计器 –
- KL 散度 用于衡量近期行为与基线行为之间的分布漂移。
- 段落‑对‑其余的 z 检验 检测异常的子轨迹。
- 顺序模式匹配 标记罕见或未见过的动作序列。
RiskGate 流程 – 这些估计器的输出进入 风险聚合模块，计算 ĤB(x)。随后将代理的内部容量 S(x)（由资源预算、置信分数等衍生）与 ĤB(x) 进行比较。如果 S(x) – ĤB(x) < margin，流程将触发 单调限制（例如，限流、安全模式或紧急停止）。
可行性指数与预测 – 标量 VI(t) 持续更新。通过简单的线性外推得到预测的 crossing 时间 t*，使系统能够在边际被突破之前进行干预。

理论证明：满足 P1‑P3 可消除三大 AI 代理失效分类法中列出的所有失效模式（例如奖励劫持、分布漂移、对抗性操控）。
仿真案例研究（自主无人机自动驾驶仪）表明，RiskGate 能在 5 秒 前检测到风模型假设的漂移，而此时可行性指数仍未降至零以下，从而为控制器切换到安全后备方案争取了时间。
对比分析 显示，单纯的被动监控（仅在安全违规后触发）会错过 73 % 的早期漂移事件，而这些事件均被 RiskGate 捕获。
性能开销 适中：完整的 RiskGate 流程在典型边缘 GPU 上每个决策周期额外增加约 12 ms 延迟，仍在许多机器人和车载应用的实时约束范围内。

更安全的自主系统部署 – 开发者可以将 RiskGate 嵌入自驾车、配送无人机或交易机器人等的运行时防护栏，减少对全面部署前验证的需求。
监管合规 – 该框架提供可量化的安全裕度 (S(x) – ĤB(x)) ，可满足新兴的 AI 风险标准（例如 EU AI 法案、ISO 26262 扩展）。
优雅降级 – 单调限制确保当风险上升时，系统能够自动降低功能（例如降低速度、切换到保守规划），在需要硬关闭之前完成降级。
即插即用 – 由于 RiskGate 依赖可观测的遥测数据和统计估计器，可在不修改核心决策代码的情况下 retrofit 到遗留代理上。
开发者工具 – 开源库包含实时 Viability Index 可视化仪表盘，使得在开发过程中更容易调试和调节安全裕度。