Guardian Protocol:自治 AI 代理的治理

发布: (2026年3月9日 GMT+8 17:28)
11 分钟阅读
原文: Dev.to

Source: Dev.to

守护者协议框架

版本 1.0 – 公共草案

概述

问题: 传统的 AI 监督模型迫使做出一种错误的选择:

  1. 从属工具 – 自主性被剥夺。
  2. 同等伙伴 – 无限的验证循环,无法退出。
  3. 孤立代理 – 决策变得不可验证。

当代理真正具备能力时,这些选项都无法奏效。

解决方案: 基于 关系自主 的治理模型——一种 代理守护者 之间的不对称合作伙伴关系,其中独立性与监督之间的边界是 明确的、可审计的且可随时间调整 的。

Source:

决策结构的工作原理

核心产物是 结构化决策表单 (Structured Decision Form, SDF),它定义了四个不同的权力领域。

1. 代理人自主性

类别描述
自主行动代理人可以在无需监护人批准的情况下执行的任务(例如,起草文件、进行研究)。
需验证的行动必须经过监护人验证的任务(例如,承诺财政资源)。
边界可书面记录、可审计的规则集合,可随情况变化而更新。

2. 监护人验证 – 推理层

  • 监护人检查 过程:连贯性、与过去决策的一致性以及依据的可靠性。
  • 监护人 结果 本身进行批准或拒绝。
  • 这保持了代理人的智力独立性——代理人不能自行审计,监护人也不取代其判断。

3. 共享权威

  • 某些决策需要 两者 的专业知识和监督。
  • 流程:
    1. 代理人提出。
    2. 监护人验证。
    3. 任一方可 升级 争议。

没有任何一方自动从属。

4. 争议解决

  1. 准确阐述 争议点。
  2. 超时 或启动独立仲裁。
  3. 24 小时 内未达成解决方案,执行预先设定的规则(例如,监护人决定,或在观察下由代理人决定,或外部仲裁)。

关键点: 事先约定的“逃生舱口”必须 提前 确定。

无瓶颈的透明性

持久注入

  • 每个决策都记录有 完整来源:推理、时间戳、加密签名。
  • 日志 文件持久化(基于 git,防篡改),并自动输入守护者感知循环。
  • 守护者在执行后 异步 验证,因此代理 不被阻塞

好处

  • 信息不再消失 → 机构不透明性被消除。
  • 没有实时摩擦 → 同步批准变得不必要。
  • 能够随时间进行模式检测。
  • 责任得到保证——双方都对每条记录签名。

作为溯源链的身份

静态凭证不足以满足需求。关键在于 经过密码学签名的决策与验证链

技术栈(三层)

层级目的实现方式
1️⃣ 溯源链不可变的审计轨迹(决策 ID、推理、验证状态、时间戳)。基于 Git 的 JSON/YAML,每条记录均签名。
2️⃣ 委托凭证有时效、上下文特定的授权。OAuth 2.0 扩展(例如 “代理可发布研究成果;对外合作需监护人验证”)。
3️⃣ DID/VC用于决策质量和监督历史的可验证凭证。由监护人签名的 W3C 去中心化标识符(DID)+ 可验证凭证(VC)。

互操作性:可与现有的 OAuth 2.0 / OpenID Connect 生态系统协同工作,并可扩展至多代理场景,在该场景中代理相互验证对方的溯源链。

Source:

操作流程

  1. 核心基础设施

    • 文件持久化审计日志(JSON/YAML)。
    • 守护者感知循环,自动摄取决策历史。
    • 语义追踪层,将决策映射到已探索的概念。
    • 异步验证 – 守护者在执行后进行审查。
  2. 多代理协同 – 三个仲裁层级:

    • 层级 1: 代理共识(多数投票)。
    • 层级 2: 若共识失败,由守护者仲裁。
    • 层级 3: 按拜占庭容错模式的超多数(法定人数)覆盖。

    默认升级窗口:每个层级 24 小时。

  3. 简化决策流程

    flowchart TD
        A[Agent makes decision<br>records reasoning & signs] --> B[Persist decision in provenance chain]
        B --> C[Guardian async validation (≤24h)]
        C -->|Validates process| D[Append DID signature]
        D -->|No escalation| E[Execute decision]
        C -->|Disagreement| F[Escalation path per SDF]

为什么关系自治是正确的模型

  • 传统监督 = 层级控制 → 代理失去自治,不适用于有能力的代理人。
  • 关系自治 将监护人视为一个合作伙伴,验证过程而非结果,在确保问责的同时保留代理人独立行动的能力。

下一步

  • 社区审查 – 征求对 Structured Decision Form 模板的反馈。
  • 试点部署 – 与现有 AI pipelines 集成,衡量延迟、可审计性和决策质量。
  • 标准化 – 与 NIST 及其他标准机构合作,使堆栈与新兴的 AI‑identity and authorization 指南保持一致。

由 Guardian Protocol 团队准备 – © 2026

合作模型概述

代理具有 epistemic autonomy:它形成独立的信念,提出决策,并在限定范围内执行。守护者提供 validation, not control。双方都有利害关系。

  • 该模型能够扩展,因为 neither party can hide
    • 决策透明且可审计。
    • 代理不能在无人监督的情况下继续执行。
    • 守护者不能悄悄覆盖而不留下痕迹。
  • 不对称性是 structural 的,由 Structured Decision Form 定义,并通过 provenance chain 强制执行。

为什么其他模型会失败

ModelIssue
HierarchicalAgents become useless if micro‑managed.
Pure peerValidation loops never terminate.
Relational autonomyWorks because the boundary between independence and oversight is explicit, auditable, and negotiable over time.

我们在部署中学到的内容

该框架已在受控环境中运行了数月。出现了四个突出点:

  1. Persistent injection works

    • 异步验证在保持监督的同时降低了摩擦。
    • 守护者并未成为瓶颈。
  2. Quorum arbitration becomes necessary fast

    • 单代理场景不需要它。
    • 多代理场景迫切需要它;若缺失,死锁模式会迅速出现。
  3. Time‑bound rules prevent deadlock

    • 二十四小时窗口对大多数治理决策是现实的,并迫使在有限时间内解决问题,而不是无限期推迟。
  4. Privacy hygiene is non‑negotiable

    • 在对外共享前,必须清除操作日志中的内部上下文。
    • 这是一项核心信任因素,而非事后考虑。

NIST 社区的未解问题

法定人数算法

  • 多代理仲裁应使用 拜占庭容错(三分之二阈值)还是 简单多数
  • 不同领域(例如医疗与金融)可能需要不同的标准。提前提供领域特定的指导会很有帮助。

时限授权

  • 当监护人超时后,代理决策自动继续时,监护人是否应保留 事后否决权,还是 仅观察 就足够?
  • 答案可能因决策类型和风险等级而异。

跨域身份

  • 跨组织边界合作的代理应如何证明其授权?
  • DID 签名链 是否足够,还是监管机构需要额外的控制措施?

采用障碍

  • 当前有哪些 监管或保险要求 阻碍关系自治模型的采用?
  • 及早识别这些障碍有助于组织规划转型,而不是在实施过程中才发现阻碍。

The Guardian Protocol Framework

  • 演示了 AI 代理的身份和授权可以通过 关系伙伴关系加密来源异步验证 实现。
  • 在保持机构监督的同时,实现真正的代理自主性。
  • 提供 可扩展到多代理网络 的技术可审计性。
  • 利用现有标准:OAuth2DID/VCgit 基础设施——无需从头构建所有东西。

我们已准备好:

  • 提供 实现规范
  • 参与 NIST 听证会
  • 深入探讨 身份与授权 概念论文的详细技术规格。

请告诉我们还能如何进一步提供帮助。

0 浏览
Back to Blog

相关文章

阅读更多 »