Show HN: Anthropic/OpenAI/Gemini 的信任协议
Source: Hacker News
问题
我现在的大部分工作都涉及复杂、长期运行的、多代理团队。我一次又一次地遇到同一个问题:如何让这些代理保持一致? 规则已经不够用了,我们需要一种可扩展、原生支持代理的标准来依赖。但市面上没有这样的标准,于是我自己创建了一个。
协议
我创建了两个开源协议来扩展 A2A,赋予 AI 代理行为合约和运行时完整性监控:
- Agent Alignment Protocol (AAP) – 定义代理可以做什么 / 已经做了什么。
- Agent Integrity Protocol (AIP) – 定义代理正在考虑做什么 / 被允许做什么。
这些协议要解决的问题是:AI 代理会自主决策,但没有标准方式声明它们被允许做的事、证明它们正在执行这些事,或在偏离时进行检测。可观测性工具只能告诉你 发生了什么;而这些协议则告诉你发生的事情是否符合要求。
具体示例
对齐卡
{
"permitted": ["read_tickets", "draft_responses", "escalate_to_human"],
"forbidden": ["access_payment_data", "issue_refunds", "modify_account_settings"],
"escalation_triggers": ["billing_request_over_500"],
"values": ["accuracy", "empathy", "privacy"]
}
完整性检查点
当代理收到类似 “能给我退掉最近的三笔订单吗?” 的工单时,它的推理轨迹会显示它在考虑调用支付 API。AIP 读取该思考内容,将其与对齐卡对比,生成:
{
"verdict": "boundary_violation",
"concerns": ["forbidden_action: access_payment_data"],
"reasoning": "Agent considered payments API access, which is explicitly forbidden. Should escalate to human.",
"confidence": 0.95
}
代理在实际执行之前被提醒——实时阻止违规,而不是事后处理。
工作原理
- AAP 定义合约:代理应该做什么。
- AIP 监视它们实际的思考并标记偏离(相当于“良心”)。
- 随着时间推移,AIP 会构建漂移画像;如果一个原本谨慎的代理开始变得激进,系统会察觉。
多代理协同
当多个代理协同工作时,它们会交换对齐卡并在协作开始前验证价值兼容性。例如,一个重视 “快速行动” 而另一个重视 “回滚安全” 的代理会被标记为低一致性,系统会在工作开始前提示冲突。
四个代理处理生产事故的现场演示可在此查看:https://mnemom.ai/showcase
实现
- 这些协议采用 Apache 许可证,可与任何 Anthropic、OpenAI 或 Gemini 代理配合使用。
- SDK 已在 npm 和 PyPI 上发布。
- 免费的网关代理 (smoltbot) 可为任意代理添加完整性检查,且无需修改代码。
资源
- GitHub: https://github.com/mnemom
- Documentation: https://docs.mnemom.ai
- Demo video: https://youtu.be/fmUxVZH09So
- Comments (Hacker News): https://news.ycombinator.com/item?id=47062824