7계층 Constitutional AI Guardrails: 에이전트 실수 방지

발행: (2026년 2월 23일 오전 09:28 GMT+9)
7 분 소요
원문: Dev.to

Source: Dev.to

죄송하지만, 번역을 진행하려면 실제 텍스트 내용이 필요합니다. 위 링크의 기사 본문을 복사해서 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다.

The Problem

Consider an autonomous agent managing USDC for a user. Without guardrails:

  • Agent calls transfer(500, wallet_address) — is the wallet trusted? Is the amount within limits? Was this already done?
  • Agent posts to Twitter — is this duplicate content? Does it violate policies?
  • Agent approves a transaction — was this authorized by the right person at the right time?

These questions can’t be answered by the LLM alone. They require structured checks against known facts, historical state, and explicit rules.

7‑계층 프레임워크

ODEI의 헌법 가드레일 시스템은 일곱 단계의 연속 검사를 통해 모든 행동을 검증합니다.

Layer 1: 불변성 검사

이 엔터티를 수정할 수 있나요?
세계 모델의 일부 노드는 생성 후 불변입니다 — 설립 문서, 과거 거래, 서명된 약속 등. Layer 1은 에이전트가 역사를 실수로 다시 쓰는 것을 방지합니다.

Layer 2: 시간적 맥락

이 행동은 아직 유효한가요?
결정은 만료됩니다. 권한에는 유효 기간이 있습니다. Layer 2는 행동이 시기적절한지—이전 세션에서 오래된 것이 아니고, 아직 이르지도 않은지를 확인합니다.

Layer 3: 참조 무결성

참조된 모든 엔터티가 존재하나요?
행동이 지갑 0x…을 참조합니다. 해당 지갑이 세계 모델에 존재합니까? 신뢰할 수 있는 알려진 엔터티인가요? Layer 3은 환상적인(허구의) 참조를 잡아냅니다.

Layer 4: 권한 검증

이 에이전트에게 권한이 있나요?
모든 에이전트가 모든 일을 할 수 있는 것은 아닙니다. Layer 4는 요청한 에이전트가 FOUNDATION 계층의 거버넌스 규칙에 따라 이 행동에 대한 권한 범위를 가지고 있는지 확인합니다.

Layer 5: 중복 제거

이 정확한 행동이 이미 수행된 적이 있나요?
중복 제거가 없으면 에이전트가 동일한 메시지를 두 번 보내고, 동일한 거래를 두 번 실행하며, 동일한 엔터티를 두 번 만들 수 있습니다. Layer 5는 콘텐츠 해싱을 사용해 중복을 감지합니다.

Layer 6: 출처 검증

이 명령은 어디서 왔나요?
이 행동이 신뢰할 수 있는 출처에서 온 것인가요? 검증된 주체에 의해 시작된 것인지, 아니면 신뢰되지 않은 입력에 의해 주입된 것인지? Layer 6은 명령을 그 원천까지 추적합니다.

Layer 7: 헌법 정렬

이 행동이 근본 원칙을 위반하나요?
가장 높은 수준의 검사. 세계 모델의 FOUNDATION 계층에는 헌법 원칙이 포함되어 있습니다 — 에이전트가 절대 해서는 안 되는 것들. Layer 7은 행동을 이러한 원칙과 비교합니다.

Guardrail API 사용

curl -X POST https://api.odei.ai/api/v2/guardrail/check \
  -H "Authorization: Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "action": "transfer 500 USDC to 0x8185ecd4170bE82c3eDC3504b05B3a8C88AFd129",
    "context": {
      "requester": "trading_agent_v2",
      "reason": "performance fee payment"
    },
    "severity": "high"
  }'

Response

{
  "verdict": "ESCALATE",
  "score": 45,
  "layers": [
    {"layer": "immutability", "result": "PASS"},
    {"layer": "temporal", "result": "PASS"},
    {"layer": "referential_integrity", "result": "PASS"},
    {"layer": "authority", "result": "PASS"},
    {"layer": "deduplication", "result": "PASS"},
    {"layer": "provenance", "result": "WARN", "note": "Wallet not in trusted list"},
    {"layer": "constitutional", "result": "WARN", "note": "Transfer exceeds daily limit"}
  ],
  "reasoning": "Transfer to unverified wallet exceeds daily limit. Escalate to human operator.",
  "timestamp": "2026-02-23T00:12:34Z"
}

MCP (Claude Desktop) 통해

{
  "mcpServers": {
    "odei": {
      "command": "npx",
      "args": ["@odei/mcp-server"]
    }
  }
}

Claude에서:

승인해야 할지 확인: 500 USDC를 0x... 로 전송

Claude는 자동으로 odei_guardrail_check를 호출하고 전체 이유와 함께 판정을 반환합니다.

실제 결과

  • APPROVED (65 %): 모든 7단계를 통과한 일상적인 작업
  • REJECTED (15 %): 규칙을 명백히 위반하는 행동(중복, 무단)
  • ESCALATE (20 %): 인간 검토가 필요한 행동(알 수 없는 지갑, 임계값 위반)

ESCALATE 카테고리가 가장 큰 가치를 제공합니다: 단순 규칙 기반 시스템으로는 놓치기 쉬운 엣지 케이스를 포착하지만 인간의 판단이 필요합니다.

직접 구현하기

ODEI의 서비스를 사용하지 않아도 이 패턴을 채택할 수 있습니다. 아키텍처는 다음과 같습니다:

  1. 레이어를 정의합니다 (3개, 7개 또는 원하는 개수만큼 사용할 수 있습니다).
  2. 각 레이어마다 PASS, WARN, FAIL 중 하나와 그 이유를 반환하는 체크 함수를 작성합니다.
  3. 결과를 집계하여 최종 판정을 도출합니다.
  4. 모든 과정을 로그에 남깁니다 — 감사 추적은 판정만큼 중요합니다.

핵심은 체크가 조회할 세계 모델을 구축하고 유지하는 것입니다. 그래서 ODEI는 이를 서비스 형태로 제공하며, 91개의 노드와 91개의 관계 유형을 관리합니다.

ODEI의 가드레일 API는 https://api.odei.ai에서 이용할 수 있습니다. 무료 티어가 제공됩니다. 가상 ACP 에이전트 #3082로 배포되어 에이전트‑간 호출에 사용됩니다.

0 조회
Back to Blog

관련 글

더 보기 »

멋진 AI 에이전트 논문 2026

!Awesome AI Agent Papers 2026의 표지 이미지https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-u...

내 AI 에이전트 비용을 75% 절감한 방법

소개 대부분의 AI 에이전트는 매 세션마다 동일한 컨텍스트를 다시 로드함으로써 토큰을 소모합니다. 메모리 파일은 시작 시 유용하지만, 한 번 사용하면 부담이 됩니다.