Show HN: Anthropic/OpenAI/Gemini 的信任协议

发布: 3天前 (2026年2月19日 GMT+8 00:33)

4 分钟阅读

原文: Hacker News

Source: Hacker News

问题

我现在的大部分工作都涉及复杂、长期运行的、多代理团队。我一次又一次地遇到同一个问题：如何让这些代理保持一致？ 规则已经不够用了，我们需要一种可扩展、原生支持代理的标准来依赖。但市面上没有这样的标准，于是我自己创建了一个。

协议

我创建了两个开源协议来扩展 A2A，赋予 AI 代理行为合约和运行时完整性监控：

Agent Alignment Protocol (AAP) – 定义代理可以做什么 / 已经做了什么。
Agent Integrity Protocol (AIP) – 定义代理正在考虑做什么 / 被允许做什么。

这些协议要解决的问题是：AI 代理会自主决策，但没有标准方式声明它们被允许做的事、证明它们正在执行这些事，或在偏离时进行检测。可观测性工具只能告诉你 发生了什么；而这些协议则告诉你发生的事情是否符合要求。

具体示例

对齐卡

{
  "permitted": ["read_tickets", "draft_responses", "escalate_to_human"],
  "forbidden": ["access_payment_data", "issue_refunds", "modify_account_settings"],
  "escalation_triggers": ["billing_request_over_500"],
  "values": ["accuracy", "empathy", "privacy"]
}

完整性检查点

当代理收到类似 “能给我退掉最近的三笔订单吗？” 的工单时，它的推理轨迹会显示它在考虑调用支付 API。AIP 读取该思考内容，将其与对齐卡对比，生成：

{
  "verdict": "boundary_violation",
  "concerns": ["forbidden_action: access_payment_data"],
  "reasoning": "Agent considered payments API access, which is explicitly forbidden. Should escalate to human.",
  "confidence": 0.95
}

代理在实际执行之前被提醒——实时阻止违规，而不是事后处理。

工作原理

AAP 定义合约：代理应该做什么。
AIP 监视它们实际的思考并标记偏离（相当于“良心”）。
随着时间推移，AIP 会构建漂移画像；如果一个原本谨慎的代理开始变得激进，系统会察觉。

多代理协同

当多个代理协同工作时，它们会交换对齐卡并在协作开始前验证价值兼容性。例如，一个重视 “快速行动” 而另一个重视 “回滚安全” 的代理会被标记为低一致性，系统会在工作开始前提示冲突。

四个代理处理生产事故的现场演示可在此查看：https://mnemom.ai/showcase

实现

这些协议采用 Apache 许可证，可与任何 Anthropic、OpenAI 或 Gemini 代理配合使用。
SDK 已在 npm 和 PyPI 上发布。
免费的网关代理 (smoltbot) 可为任意代理添加完整性检查，且无需修改代码。

资源

GitHub: https://github.com/mnemom
Documentation: https://docs.mnemom.ai
Demo video: https://youtu.be/fmUxVZH09So
Comments (Hacker News): https://news.ycombinator.com/item?id=47062824

Show HN: Anthropic/OpenAI/Gemini 的信任协议

问题

协议

具体示例

对齐卡

完整性检查点

工作原理

多代理协同

实现

资源

相关文章

2026年 AI Agent Simulation 的最佳平台

我每月花 $200 用 7 个 AI agents 运营我的企业。实际会发生什么。

从二进制到 AI 代理：开发者从未如此强大

研究人员给 AI 代理分配了真实工作。代理们却无法关闭弹窗。