Show HN: Anthropic/OpenAI/Gemini에 대한 신뢰 프로토콜
Source: Hacker News
문제
현재 내 작업 대부분은 복잡하고 장기적인, 다중 에이전트 팀을 다루는 일이다. 나는 같은 문제에 계속 부딪혔다: 이 사람들을 어떻게 통제할까? 규칙만으로는 부족했고, 확장 가능하고 에이전트‑네이티브한 표준이 필요했다. 그런 것이 없었기에 내가 직접 만들었다.
프로토콜
나는 A2A를 확장하는 두 개의 오픈‑소스 프로토콜을 만들었다. 이 프로토콜들은 AI 에이전트에게 행동 계약과 런타임 무결성 모니터링을 제공한다:
- Agent Alignment Protocol (AAP) – 에이전트가 할 수 있는 일 / 이미 한 일을 정의한다.
- Agent Integrity Protocol (AIP) – 에이전트가 무엇을 할 생각을 하고 있는지 / 할 수 있는지를 정의한다.
이 프로토콜들이 해결하고자 하는 문제는 AI 에이전트가 자율적인 결정을 내리지만, 자신이 허용된 행동을 선언하거나, 실제로 수행하고 있음을 증명하거나, 흐트러졌을 때 감지할 표준 방법이 없다는 점이다. 관찰 도구는 무엇이 일어났는지를 알려주지만, 이 프로토콜은 그 일이 괜찮았는지를 알려준다.
구체적인 예시
정렬 카드
{
"permitted": ["read_tickets", "draft_responses", "escalate_to_human"],
"forbidden": ["access_payment_data", "issue_refunds", "modify_account_settings"],
"escalation_triggers": ["billing_request_over_500"],
"values": ["accuracy", "empathy", "privacy"]
}
무결성 체크포인트
에이전트가 “지난 세 주문을 환불해줄 수 있나요?” 라는 티켓을 받으면, 추론 트레이스에 결제 API 호출을 고려하고 있음을 보여준다. AIP는 그 생각을 읽고 카드와 비교하여 다음을 생성한다:
{
"verdict": "boundary_violation",
"concerns": ["forbidden_action: access_payment_data"],
"reasoning": "Agent considered payments API access, which is explicitly forbidden. Should escalate to human.",
"confidence": 0.95
}
에이전트는 행동하기 전에 다시 유도되어—실시간으로 위반을 방지하고 사후에 문제가 발생하지 않게 된다.
작동 방식
- AAP는 계약을 정의한다: 에이전트가 해야 할 일.
- AIP는 실제로 생각하고 있는 내용을 감시하고 차이를 표시한다(‘양심’ 역할).
- 시간이 지나면서 AIP는 드리프트 프로파일을 구축한다; 조심스럽던 에이전트가 점점 공격적으로 변하면 시스템이 이를 감지한다.
다중 에이전트 협업
여러 에이전트가 함께 작업할 때, 정렬 카드를 교환하고 가치 호환성을 검증한 뒤 협업을 시작한다. 예를 들어 “빠르게 움직이기”를 중시하는 에이전트와 “롤백 안전성”을 중시하는 에이전트가 낮은 일관성을 보이면, 시스템은 작업 시작 전에 그 충돌을 표시한다.
네 개의 에이전트가 생산 사고를 처리하는 실시간 데모는 여기서 확인할 수 있다: https://mnemom.ai/showcase
구현
- 이 프로토콜은 Apache‑licensed이며 Anthropic, OpenAI, Gemini 에이전트와 모두 작동한다.
- SDK는 npm과 PyPI에 제공된다.
- 무료 게이트웨이 프록시(smoltbot)는 코드 변경 없이 모든 에이전트에 무결성 검사를 추가한다.
리소스
- GitHub: https://github.com/mnemom
- Documentation: https://docs.mnemom.ai
- Demo video: https://youtu.be/fmUxVZH09So
- Comments (Hacker News): https://news.ycombinator.com/item?id=47062824