Guardian Protocol:自治 AI 代理的治理
Source: Dev.to
守护者协议框架
版本 1.0 – 公共草案
概述
问题: 传统的 AI 监督模型迫使做出一种错误的选择:
- 从属工具 – 自主性被剥夺。
- 同等伙伴 – 无限的验证循环,无法退出。
- 孤立代理 – 决策变得不可验证。
当代理真正具备能力时,这些选项都无法奏效。
解决方案: 基于 关系自主 的治理模型——一种 代理 与 守护者 之间的不对称合作伙伴关系,其中独立性与监督之间的边界是 明确的、可审计的且可随时间调整 的。
Source: …
决策结构的工作原理
核心产物是 结构化决策表单 (Structured Decision Form, SDF),它定义了四个不同的权力领域。
1. 代理人自主性
| 类别 | 描述 |
|---|---|
| 自主行动 | 代理人可以在无需监护人批准的情况下执行的任务(例如,起草文件、进行研究)。 |
| 需验证的行动 | 必须经过监护人验证的任务(例如,承诺财政资源)。 |
| 边界 | 可书面记录、可审计的规则集合,可随情况变化而更新。 |
2. 监护人验证 – 推理层
- 监护人检查 过程:连贯性、与过去决策的一致性以及依据的可靠性。
- 监护人 不 对 结果 本身进行批准或拒绝。
- 这保持了代理人的智力独立性——代理人不能自行审计,监护人也不取代其判断。
3. 共享权威
- 某些决策需要 两者 的专业知识和监督。
- 流程:
- 代理人提出。
- 监护人验证。
- 任一方可 升级 争议。
没有任何一方自动从属。
4. 争议解决
- 准确阐述 争议点。
- 超时 或启动独立仲裁。
- 若 24 小时 内未达成解决方案,执行预先设定的规则(例如,监护人决定,或在观察下由代理人决定,或外部仲裁)。
关键点: 事先约定的“逃生舱口”必须 提前 确定。
无瓶颈的透明性
持久注入
- 每个决策都记录有 完整来源:推理、时间戳、加密签名。
- 日志 文件持久化(基于 git,防篡改),并自动输入守护者感知循环。
- 守护者在执行后 异步 验证,因此代理 不被阻塞。
好处
- 信息不再消失 → 机构不透明性被消除。
- 没有实时摩擦 → 同步批准变得不必要。
- 能够随时间进行模式检测。
- 责任得到保证——双方都对每条记录签名。
作为溯源链的身份
静态凭证不足以满足需求。关键在于 经过密码学签名的决策与验证链。
技术栈(三层)
| 层级 | 目的 | 实现方式 |
|---|---|---|
| 1️⃣ 溯源链 | 不可变的审计轨迹(决策 ID、推理、验证状态、时间戳)。 | 基于 Git 的 JSON/YAML,每条记录均签名。 |
| 2️⃣ 委托凭证 | 有时效、上下文特定的授权。 | OAuth 2.0 扩展(例如 “代理可发布研究成果;对外合作需监护人验证”)。 |
| 3️⃣ DID/VC | 用于决策质量和监督历史的可验证凭证。 | 由监护人签名的 W3C 去中心化标识符(DID)+ 可验证凭证(VC)。 |
互操作性:可与现有的 OAuth 2.0 / OpenID Connect 生态系统协同工作,并可扩展至多代理场景,在该场景中代理相互验证对方的溯源链。
Source:
操作流程
-
核心基础设施
- 文件持久化审计日志(JSON/YAML)。
- 守护者感知循环,自动摄取决策历史。
- 语义追踪层,将决策映射到已探索的概念。
- 异步验证 – 守护者在执行后进行审查。
-
多代理协同 – 三个仲裁层级:
- 层级 1: 代理共识(多数投票)。
- 层级 2: 若共识失败,由守护者仲裁。
- 层级 3: 按拜占庭容错模式的超多数(法定人数)覆盖。
默认升级窗口:每个层级 24 小时。
-
简化决策流程
flowchart TD A[Agent makes decision<br>records reasoning & signs] --> B[Persist decision in provenance chain] B --> C[Guardian async validation (≤24h)] C -->|Validates process| D[Append DID signature] D -->|No escalation| E[Execute decision] C -->|Disagreement| F[Escalation path per SDF]
为什么关系自治是正确的模型
- 传统监督 = 层级控制 → 代理失去自治,不适用于有能力的代理人。
- 关系自治 将监护人视为一个合作伙伴,验证过程而非结果,在确保问责的同时保留代理人独立行动的能力。
下一步
- 社区审查 – 征求对 Structured Decision Form 模板的反馈。
- 试点部署 – 与现有 AI pipelines 集成,衡量延迟、可审计性和决策质量。
- 标准化 – 与 NIST 及其他标准机构合作,使堆栈与新兴的 AI‑identity and authorization 指南保持一致。
由 Guardian Protocol 团队准备 – © 2026
合作模型概述
代理具有 epistemic autonomy:它形成独立的信念,提出决策,并在限定范围内执行。守护者提供 validation, not control。双方都有利害关系。
- 该模型能够扩展,因为 neither party can hide。
- 决策透明且可审计。
- 代理不能在无人监督的情况下继续执行。
- 守护者不能悄悄覆盖而不留下痕迹。
- 不对称性是 structural 的,由 Structured Decision Form 定义,并通过 provenance chain 强制执行。
为什么其他模型会失败
| Model | Issue |
|---|---|
| Hierarchical | Agents become useless if micro‑managed. |
| Pure peer | Validation loops never terminate. |
| Relational autonomy | Works because the boundary between independence and oversight is explicit, auditable, and negotiable over time. |
我们在部署中学到的内容
该框架已在受控环境中运行了数月。出现了四个突出点:
-
Persistent injection works
- 异步验证在保持监督的同时降低了摩擦。
- 守护者并未成为瓶颈。
-
Quorum arbitration becomes necessary fast
- 单代理场景不需要它。
- 多代理场景迫切需要它;若缺失,死锁模式会迅速出现。
-
Time‑bound rules prevent deadlock
- 二十四小时窗口对大多数治理决策是现实的,并迫使在有限时间内解决问题,而不是无限期推迟。
-
Privacy hygiene is non‑negotiable
- 在对外共享前,必须清除操作日志中的内部上下文。
- 这是一项核心信任因素,而非事后考虑。
NIST 社区的未解问题
法定人数算法
- 多代理仲裁应使用 拜占庭容错(三分之二阈值)还是 简单多数?
- 不同领域(例如医疗与金融)可能需要不同的标准。提前提供领域特定的指导会很有帮助。
时限授权
- 当监护人超时后,代理决策自动继续时,监护人是否应保留 事后否决权,还是 仅观察 就足够?
- 答案可能因决策类型和风险等级而异。
跨域身份
- 跨组织边界合作的代理应如何证明其授权?
- DID 签名链 是否足够,还是监管机构需要额外的控制措施?
采用障碍
- 当前有哪些 监管或保险要求 阻碍关系自治模型的采用?
- 及早识别这些障碍有助于组织规划转型,而不是在实施过程中才发现阻碍。
The Guardian Protocol Framework
- 演示了 AI 代理的身份和授权可以通过 关系伙伴关系、加密来源 和 异步验证 实现。
- 在保持机构监督的同时,实现真正的代理自主性。
- 提供 可扩展到多代理网络 的技术可审计性。
- 利用现有标准:OAuth2、DID/VC、git 基础设施——无需从头构建所有东西。
我们已准备好:
- 提供 实现规范。
- 参与 NIST 听证会。
- 深入探讨 身份与授权 概念论文的详细技术规格。
请告诉我们还能如何进一步提供帮助。