Show HN: Anthropic/OpenAI/Gemini에 대한 신뢰 프로토콜

발행: (2026년 2월 19일 오전 01:33 GMT+9)
5 분 소요

Source: Hacker News

문제

현재 내 작업 대부분은 복잡하고 장기적인, 다중 에이전트 팀을 다루는 일이다. 나는 같은 문제에 계속 부딪혔다: 이 사람들을 어떻게 통제할까? 규칙만으로는 부족했고, 확장 가능하고 에이전트‑네이티브한 표준이 필요했다. 그런 것이 없었기에 내가 직접 만들었다.

프로토콜

나는 A2A를 확장하는 두 개의 오픈‑소스 프로토콜을 만들었다. 이 프로토콜들은 AI 에이전트에게 행동 계약과 런타임 무결성 모니터링을 제공한다:

  • Agent Alignment Protocol (AAP) – 에이전트가 할 수 있는 일 / 이미 한 일을 정의한다.
  • Agent Integrity Protocol (AIP) – 에이전트가 무엇을 할 생각을 하고 있는지 / 할 수 있는지를 정의한다.

이 프로토콜들이 해결하고자 하는 문제는 AI 에이전트가 자율적인 결정을 내리지만, 자신이 허용된 행동을 선언하거나, 실제로 수행하고 있음을 증명하거나, 흐트러졌을 때 감지할 표준 방법이 없다는 점이다. 관찰 도구는 무엇이 일어났는지를 알려주지만, 이 프로토콜은 그 일이 괜찮았는지를 알려준다.

구체적인 예시

정렬 카드

{
  "permitted": ["read_tickets", "draft_responses", "escalate_to_human"],
  "forbidden": ["access_payment_data", "issue_refunds", "modify_account_settings"],
  "escalation_triggers": ["billing_request_over_500"],
  "values": ["accuracy", "empathy", "privacy"]
}

무결성 체크포인트

에이전트가 “지난 세 주문을 환불해줄 수 있나요?” 라는 티켓을 받으면, 추론 트레이스에 결제 API 호출을 고려하고 있음을 보여준다. AIP는 그 생각을 읽고 카드와 비교하여 다음을 생성한다:

{
  "verdict": "boundary_violation",
  "concerns": ["forbidden_action: access_payment_data"],
  "reasoning": "Agent considered payments API access, which is explicitly forbidden. Should escalate to human.",
  "confidence": 0.95
}

에이전트는 행동하기 전에 다시 유도되어—실시간으로 위반을 방지하고 사후에 문제가 발생하지 않게 된다.

작동 방식

  • AAP는 계약을 정의한다: 에이전트가 해야 할 일.
  • AIP는 실제로 생각하고 있는 내용을 감시하고 차이를 표시한다(‘양심’ 역할).
  • 시간이 지나면서 AIP는 드리프트 프로파일을 구축한다; 조심스럽던 에이전트가 점점 공격적으로 변하면 시스템이 이를 감지한다.

다중 에이전트 협업

여러 에이전트가 함께 작업할 때, 정렬 카드를 교환하고 가치 호환성을 검증한 뒤 협업을 시작한다. 예를 들어 “빠르게 움직이기”를 중시하는 에이전트와 “롤백 안전성”을 중시하는 에이전트가 낮은 일관성을 보이면, 시스템은 작업 시작 전에 그 충돌을 표시한다.

네 개의 에이전트가 생산 사고를 처리하는 실시간 데모는 여기서 확인할 수 있다: https://mnemom.ai/showcase

구현

  • 이 프로토콜은 Apache‑licensed이며 Anthropic, OpenAI, Gemini 에이전트와 모두 작동한다.
  • SDK는 npmPyPI에 제공된다.
  • 무료 게이트웨이 프록시(smoltbot)는 코드 변경 없이 모든 에이전트에 무결성 검사를 추가한다.

리소스

0 조회
Back to Blog

관련 글

더 보기 »