내 AI가 스스로 차단했을 때: 실제로 Constitutional Governance가 어떻게 보이는지

발행: (2026년 2월 28일 오후 08:48 GMT+9)
9 분 소요
원문: Dev.to

Source: Dev.to

Incident Overview

What happened?
오늘 아침, CORE – 나의 자율 AI 개발 시스템 – 자체 복구 워크플로우를 차단했습니다. 인간은 이를 포착하지 못했고, 알림도 발생하지 않았으며, constitution만이 이를 감지했습니다.

Why it matters
이 사건은 헌법적 거버넌스 레이어가 어떻게 무음 실패를 방지하고, 프로덕션 환경에서 자율 시스템을 안전하게 유지할 수 있는지를 보여줍니다.

Source:

실패

CORE는 헌법 위반을 자동으로 수정하는 dev‑sync 워크플로를 실행합니다.
실행 중 다음 오류가 발생했습니다:

ERROR: file.tag_metadata failed for src/body/governance/intent_guard.py:
cannot unpack non‑iterable ConstitutionalValidationResult object

자기 치유 시스템이 자체 거버넌스 파일에 태그를 달려고 했지만, 헌법 가드가 이를 차단했습니다.

근본 원인

같은 IntentGuard 구성 요소의 두 버전이 서로 달라졌습니다:

구성 요소반환 타입
구버전(bool, list) 튜플
신버전ConstitutionalValidationResult 객체

FileHandler는 여전히 구버전 API를 호출하고 있었고, 헌법은 신버전 API를 강제했습니다. 따라서 AI는 자체 거버넌스 레이어가 진화하면서 스스로를 수정하는 것이 차단된 것입니다.

잘 된 점

  • 조용한 실패 없음
  • 디스크에 부분적인 상태가 기록되지 않음
  • 손상된 파일 없음
  • 드리프트를 정확히 짚어내는 명확하고 추적 가능한 오류

헌법적 거버넌스 레이어는 설계된 대로 정확히 동작했습니다: 계약을 위반하는 경우 실행을 중단하고, 보이지 않는 부채를 만들며 진행하지 않았습니다.

비교

관리되지 않은 AI 에이전트관리된 (CORE)
에이전트가 위반을 감지 → 수정 생성 → 수정 기록 → 수정이 구문 검사 통과 → 수정이 잘못됨 → 아무도 모름에이전트가 위반을 감지 → 수정 생성 → 헌법적 가드가 수정 평가 → 가드가 실행 차단 → 명시적 오류 → 인간이 계약을 수정 → 시스템이 정상적으로 재개

두 번째 경로는 더 느리지만, 규모에 따라 신뢰할 수 있는 유일한 방법입니다.

IntentGuard API 변경

구버전 API

# Old API
def check_transaction(
    self, proposed_paths: list[str]
) -> tuple[bool, list[ViolationReport]]:
    ...
    return (allowed, violations)

신규 API

# New API
def check_transaction(
    self, proposed_paths: list[str], impact: str | None = None
) -> ConstitutionalValidationResult:
    ...
    return ConstitutionalValidationResult(
        is_valid=is_valid,
        violations=violations,
        source="IntentGuard"
    )

버그가 있는 호출부

# Still expecting the old API
allowed, violations = self._guard.check_transaction(cleaned)

수정 방법 (두 줄만 변경)

def _guard_paths(self, rel_paths: list[str], impact: str | None = None) -> None:
    cleaned: list[str] = [str(p).lstrip("./") for p in rel_paths]
    result = self._guard.check_transaction(cleaned, impact=impact)
    if result.is_valid:
        return
    msg = result.violations[0].message if result.violations else "Blocked by IntentGuard."
    raise ValueError(f"Blocked by IntentGuard: {msg}")

수정을 적용한 뒤 시스템은 정상적으로 재개되었습니다. 흥미로운 점은 수정 자체가 아니라 시스템이 문제가 있음을 감지하고 진행을 거부했다는 것이며, 이는 조용히 잘못된 출력을 생성하는 대신 오류를 명확히 알려준다는 점입니다.

왜 헌법적 거버넌스가 중요한가

  • 단순한 린터나 코드‑리뷰 단계가 아니다 – 규칙은 절대적이다.
  • 규칙은 인간이 작성한 .intent/ YAML 파일에 한 번 정의된다.
  • 규칙은 런타임에 평가되며, 커밋 시점에만 평가되는 것이 아니다.
  • 위반 시 실행이 중단된다; 단순히 경고만 기록하지 않는다.
  • 자체 복구 에이전트를 포함한 어떤 에이전트도 이를 우회할 수 없다.

원칙: 법은 지능보다 우선한다.
AI가 규칙보다 똑똑할 수 있지만, 규칙이 먼저 실행된다.

CORE의 역량 성숙도

레벨설명상태
A0 – Self‑Awareness자신이 무엇이며 어디에 존재하는지 알고 있다
A1 – Self‑Healing알려진 구조적 문제를 자동으로 해결한다
A2 – Governed Generation자연어 → 헌법에 부합하는 코드
A3 – Strategic자율적으로 아키텍처 개선점을 식별한다🎯
A4 – Self‑ReplicationCORE.NG를 자체 이해를 바탕으로 작성한다🔮

이번 사건은 A1(self‑healing)과 A2(code generation)이 실제로 프로덕션에서 가동되고 있으며, 헌법적 거버넌스가 이론적인 작업이 아니라 실제 작업을 수행하고 있음을 입증했다.

  • 시스템은 2 031개의 심볼을 수정하고, 92개의 규칙에 대한 헌법 감사를 수행했으며, 드리프트를 감지하고, 깔끔하게 중단한 뒤 두 줄의 수정으로 재개했다.
  • 이것이 설계대로 작동하는 루프이다.

주요 내용

  1. 무음 실패는 적이다.
    실패를 크게, 명시적으로, 차단되도록 만들라.

  2. 거버넌스 드리프트는 불가피하다 – 탐지를 위해 설계하라.
    API는 진화하고, 계약은 변한다. 문제는 그것이 일어날지가 아니라 그때를 알 수 있느냐이다.

  3. 자체 치유 루프에도 헌법적 경계가 필요하다.
    자율 수리 시스템에 높은 권한을 부여하지 마라. 모든 것과 동일한 제약 하에서 작동해야 한다. 경계 내에서 해결하지 못한다면 그것은 실패가 아니라 정보이다.

  4. 법이 지능보다 우선한다.
    AI는 창의적인 해결책을 찾겠지만, 그 중 일부는 아키텍처를 위반한다. 거버넌스 레이어는 AI의 창의성보다 빠르고 절대적이어야 한다.

참여하기

CORE는 MIT 라이선스 하에 오픈 소스입니다. 자율 AI 시스템을 구축하고 거버넌스를 고민하고 있다면, 여러분이 하고 있는 일을 듣고 싶습니다.

Case Study: CORE
Demo: asciinema.org/a/792095

데모는 바로 이러한 순환을 보여줍니다: 위반 감지 → 실행 차단 → 복구 → 깨끗한 재검증. 거버넌스는 실행할 수 있습니다. 오늘 아침에도 다시 증명되었습니다.

0 조회
Back to Blog

관련 글

더 보기 »

일이 정신 건강 위험이 될 때

markdown !Ravi Mishrahttps://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fu...