[Paper] SARC: 에이전시 AI 시스템을 위한 Governance-by-Architecture 프레임워크
Source: arXiv - 2605.07728v1
Overview
이 논문은 SARC라는 런타임 거버넌스 프레임워크를 소개합니다. SARC는 규제 제약을 도구를 사용하는 “에이전시” AI 시스템의 실행 루프에 직접 삽입합니다. 제약을 상태, 행동, 보상과 동등한 1급 객체로 취급함으로써, SARC는 실시간 시행, 감사 및 에스컬레이션을 가능하게 하여 정책 의도와 실제 시스템 행동 사이의 격차를 해소합니다.
주요 기여
- Constraint‑as‑Specification Model – 풍부한 스키마(소스, 클래스, 술어, 검증 포인트, 응답 프로토콜, 운영 포인트)를 정의하여 실행 가능한 훅으로 컴파일할 수 있습니다.
- Four Enforcement Hooks – Pre‑Action Gate, Action‑Time Monitor, Post‑Action Auditor, Escalation Router 네 가지 훅을 도입해 하드 제약이 각 에이전트 단계의 전·중·후에 모두 검사되도록 보장합니다.
- Formal Guarantees – 사양이 실행 추적과 동기화되기 위해 필요한 최소 불변성을 증명하고, 단순 보상 페널티가 하드 런타임 검사를 대체할 수 없는 이유를 제시합니다.
- Multi‑Agent Extension – 제약 전파, 권한 교차, 추적‑트리 귀속 메커니즘을 제공하여 복잡한 워크플로우가 끝까지 감사 가능하도록 합니다.
- Prototype & Empirical Evaluation – 감사‑체커를 구현하고 조달‑작업 시나리오에서 재현 가능한 합성 벤치마크(무작위 시드 50개)를 실행하여, 하드 제약 위반이 전혀 없고 정책‑코드 기반 기준 대비 소프트‑윈도우 초과가 89.5 % 감소함을 입증했습니다.
방법론
-
Specification Language – 저자들은 각 제약 조건이 다음을 나열하는 선언형 JSON‑like 형식을 설계한다:
- Source: 규칙을 만든 주체(예: 규제 기관, 내부 정책).
- Class: 하드 vs. 소프트, 안전 vs. 규정 준수 등.
- Predicate: 에이전트의 상태 또는 행동에 대한 불리언 조건.
- Verification Point: 언제 해당 프레디케이트를 평가해야 하는지(행동 전, 실행 중, 행동 후).
- Response Protocol: 위반 시 수행할 조치(거부, 제한, 로그, 에스컬레이션).
- Operating Point: 제약이 연결되는 루프의 부분.
-
Compilation to Enforcement Hooks – 사양은 자동으로 변환되어 에이전트 실행 사이클에 네 가지 훅을 삽입한다:
- Pre‑Action Gate는 도구에 전송되기 전에 허용되지 않은 행동을 차단한다.
- Action‑Time Monitor는 실행 중에 나타나는 위반을 감지하기 위해 스트리밍 도구 출력을 감시한다.
- Post‑Action Auditor는 최종 결과가 남아 있는 제약 조건을 충족하는지 검증한다.
- Escalation Router는 위반을 상위 정책 엔진이나 인간 검토자에게 전달한다.
-
Formal Invariant Checking – 트레이스 이론을 사용해 저자들은 spec‑trace correspondence를 정의한다: 관찰된 모든 실행 트레이스는 지정된 검증 지점에서 모든 적용 가능한 프레디케이트가 유지되었다는 증명을 포함해야 한다.
-
Multi‑Agent Workflow Integration – 제약은 방향성 비순환 그래프(DAG) 형태의 에이전트들 사이에 전파되며, 교차하는 권한은 우선순위 격자를 통해 해결되고, 각 단계는 감사 가능성을 보장하기 위해 속성 메타데이터를 기록한다.
-
Experimental Setup – 에이전트가 외부 API를 사용해 견적을 요청하고, 협상하며, 계약을 체결하는 합성 조달 환경을 구축한다. 저자들은 50개의 무작위 시드를 생성하고, “프레디케이트 노이즈”(예: 퍼지 프레디케이트)와 강제 시행 실패를 다양한 수준으로 주입한 뒤, SARC를 네 가지 베이스라인과 비교한다: (i) 사후 감사만 수행, (ii) 출력 필터링, (iii) 정적 워크플로 규칙, (iv) 런타임 훅이 없는 정책‑코드.
결과 및 발견
| 지표 | SARC | 사후 감사 | 출력 필터링 | 워크플로 규칙 | 정책‑코드 |
|---|---|---|---|---|---|
| 하드 제약 위반 (정확한 술어) | 0 | 실행의 12 % | 8 % | 5 % | 7 % |
| 소프트 윈도우 초과 (PAA 제한) | 정책‑코드 대비 89.5 % 감소 | 45 % 감소 | 60 % 감소 | 70 % 감소 | — |
| 집행 실패 영향 | 위반은 집행 스택 오류에 따라 선형적으로 증가 | 위반은 환경 기회에 따라 초선형적으로 증가 | — | — | — |
| 런타임 오버헤드 (단계당 평균) | ~12 ms (≈전체 지연 시간의 3 %) | ~5 ms | ~7 ms | ~6 ms | ~4 ms |
핵심 요약
- 예측 가능한 하드 위반 0: 술어가 정확할 때, 네‑훅 아키텍처가 불법 행위를 신뢰성 있게 차단함을 확인.
- 소프트 제약 준수가 크게 향상됨: 사전 행동 게이트와 행동 시간 모니터가 위반이 누적되기 전에 제한하거나 행동을 재구성할 수 있기 때문.
- 오류 전파가 예측 가능하게 동작: 놓친 검사는 특정 집행 레이어에 귀속되어 디버깅 및 정책 개선을 단순화함.
실용적 함의
- Regulated AI Deployments – 금융, 조달, 의료 분야에서 자율 에이전트를 구축하는 기업은 사후 보고에 의존하는 대신 in‑flight으로 규정 준수 감시자를 만족시키기 위해 SARC를 삽입할 수 있습니다.
- Tool‑Use Safety Nets – 외부 API(예: 코드 실행, 웹 브라우징)와 LLM‑구동 에이전트를 통합하는 개발자는 “no‑network‑outside‑whitelist” 또는 “budget‑cap” 제약을 정의할 수 있으며, 이는 요청이 샌드박스를 떠나기 전에 적용됩니다.
- Observability & Auditing – 내장된 트레이스 귀속 기능은 각 결정이 원본 정책에 매핑되는 자동 감사 로그를 가능하게 하여 조사 시 수동 포렌식 작업을 감소시킵니다.
- Policy‑as‑Code Evolution – SARC의 선언적 사양은 코드와 함께 버전 관리될 수 있어 CI 파이프라인이 기존 강제 훅을 손상시키지 않고 새로운 정책이 컴파일되는지 검증할 수 있습니다.
- Multi‑Agent Orchestration – 복잡한 파이프라인(예: LLM, 플래너, 실행기 체인)에서 SARC의 전파 및 권한 교차 메커니즘은 단일 고수준 규정 준수 규칙이 전체 워크플로 전체에 걸쳐 적용되도록 보장합니다.
제한 사항 및 향후 작업
- Synthetic Evaluation – 실험은 제어된 조달 샌드박스를 사용합니다; 실제 배포에서는 여기서 포착되지 않은 가장자리 사례(네트워크 지연, 비결정적 도구 응답)가 나타날 수 있습니다.
- Predicate Noise Sensitivity – 저자들이 퍼지 프레디케이트를 탐색하지만, 프레임워크는 여전히 명확히 정의되고 결정 가능한 조건에 의존합니다; 모호한 법적 언어는 과도하게 보수적인 차단을 초래할 수 있습니다.
- Scalability of Enforcement Stack – 많은 제약을 추가하면 단계당 검사 수가 증가합니다; 향후 작업에서는 적응형 배칭이나 하드웨어 가속 검증을 탐색해야 합니다.
- Human‑in‑the‑Loop Escalation – 현재 Escalation Router는 일반 정책 엔진으로 전달합니다; 미묘한 인간 의사결정(예: 위험 기반 트리아지) 통합은 아직 해결되지 않은 과제입니다.
- Formal Verification Integration – SARC를 정리 증명기나 모델 체커와 연동하도록 확장하면 안전‑중요 분야에 대해 더 강력한 보장을 제공할 수 있습니다.
저자
- Gaston Besanson
Source:
논문 정보
- arXiv ID: 2605.07728v1
- 분류: cs.SE, cs.CY
- 출판일: 2026년 5월 8일
- PDF: PDF 다운로드