Show HN: Anthropic/OpenAI/Gemini 的信任协议

发布: (2026年2月19日 GMT+8 00:33)
4 分钟阅读

Source: Hacker News

问题

我现在的大部分工作都涉及复杂、长期运行的、多代理团队。我一次又一次地遇到同一个问题:如何让这些代理保持一致? 规则已经不够用了,我们需要一种可扩展、原生支持代理的标准来依赖。但市面上没有这样的标准,于是我自己创建了一个。

协议

我创建了两个开源协议来扩展 A2A,赋予 AI 代理行为合约和运行时完整性监控:

  • Agent Alignment Protocol (AAP) – 定义代理可以做什么 / 已经做了什么。
  • Agent Integrity Protocol (AIP) – 定义代理正在考虑做什么 / 被允许做什么。

这些协议要解决的问题是:AI 代理会自主决策,但没有标准方式声明它们被允许做的事、证明它们正在执行这些事,或在偏离时进行检测。可观测性工具只能告诉你 发生了什么;而这些协议则告诉你发生的事情是否符合要求。

具体示例

对齐卡

{
  "permitted": ["read_tickets", "draft_responses", "escalate_to_human"],
  "forbidden": ["access_payment_data", "issue_refunds", "modify_account_settings"],
  "escalation_triggers": ["billing_request_over_500"],
  "values": ["accuracy", "empathy", "privacy"]
}

完整性检查点

当代理收到类似 “能给我退掉最近的三笔订单吗?” 的工单时,它的推理轨迹会显示它在考虑调用支付 API。AIP 读取该思考内容,将其与对齐卡对比,生成:

{
  "verdict": "boundary_violation",
  "concerns": ["forbidden_action: access_payment_data"],
  "reasoning": "Agent considered payments API access, which is explicitly forbidden. Should escalate to human.",
  "confidence": 0.95
}

代理在实际执行之前被提醒——实时阻止违规,而不是事后处理。

工作原理

  • AAP 定义合约:代理应该做什么。
  • AIP 监视它们实际的思考并标记偏离(相当于“良心”)。
  • 随着时间推移,AIP 会构建漂移画像;如果一个原本谨慎的代理开始变得激进,系统会察觉。

多代理协同

当多个代理协同工作时,它们会交换对齐卡并在协作开始前验证价值兼容性。例如,一个重视 “快速行动” 而另一个重视 “回滚安全” 的代理会被标记为低一致性,系统会在工作开始前提示冲突。

四个代理处理生产事故的现场演示可在此查看:https://mnemom.ai/showcase

实现

  • 这些协议采用 Apache 许可证,可与任何 Anthropic、OpenAI 或 Gemini 代理配合使用。
  • SDK 已在 npmPyPI 上发布。
  • 免费的网关代理 (smoltbot) 可为任意代理添加完整性检查,且无需修改代码。

资源

0 浏览
Back to Blog

相关文章

阅读更多 »