[Paper] 보안 에이전틱 시스템을 위한 정책 컴파일러

발행: 3일 전 (2026년 2월 19일 오전 03:57 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.16708v1

Overview

LLM‑driven agents are being handed increasingly sensitive responsibilities—think customer‑service bots that must follow strict escalation rules, or automated compliance checkers that need to respect data‑access policies. Embedding such rules directly in prompts is fragile; the model can simply ignore or bypass them. The paper introduces PCAS (Policy Compiler for Agentic Systems), a framework that automatically transforms any existing LLM‑based agent into a policy‑enforced system, guaranteeing that every action respects formally specified security and workflow rules.

주요 기여

결정론적 정책 집행 LLM 에이전트를 위한 컴파일‑타임 계측 단계로, 모델 내부 추론에 대한 의존성을 없앰.
의존성‑그래프 상태 모델 은 도구 호출, 도구 출력, 메시지 간의 인과 관계를 포착하여 다중 에이전트 간 정보 흐름을 정밀하게 추적함.
Datalog‑기반 정책 언어 로 전이적 데이터‑플로우 및 출처 제약을 표현적이고 선언적으로 지정 가능.
레퍼런스 모니터 가 모든 에이전트 행동을 가로채고, 컴파일된 정책과 대조하여 위반을 실행 전에 차단함.
실증적 검증 은 세 가지 현실적인 시나리오(프롬프트‑인젝션 방어, 다중‑에이전트 약물감시 승인, 기업 고객‑서비스 워크플로)에서 수행되었으며, 최신 LLM 전반에 걸쳐 준수율이 약 48 %에서 >93 %로 상승하고 계측된 실행에서는 위반이 전혀 없었음을 보여줌.

방법론

Policy Specification – 보안 엔지니어는 경량 Datalog‑스타일 언어로 규칙을 작성합니다. 규칙은 “데이터 X가 소스 Y에서 유래하면 Z로 절대 전송되지 않아야 한다” 혹은 “약물 부작용 보고서는 기록되기 전에 선임 분석가의 승인을 받아야 한다”와 같이 표현할 수 있습니다.
System Instrumentation – PCAS는 원본 에이전트 코드(또는 任意 LLM API에 대한 래퍼)를 받아 자동으로 reference monitor를 삽입합니다. 이 모니터는 모든 관측 가능한 이벤트(메시지, 도구 호출, 도구 결과)를 기록합니다.
Dependency Graph Construction – 에이전트가 실행되는 동안 모니터는 노드가 이벤트이고 엣지가 인과 관계를 나타내는(예: 도구의 출력이 이전 사용자 메시지에 의존) 방향 그래프를 구축합니다. 이 그래프는 정책 평가를 위한 권위 있는 “상태”가 됩니다.
Policy Evaluation – 에이전트가 행동을 시도할 때마다(메시지 전송, 외부 API 호출, 저장소에 쓰기 등) 모니터는 컴파일된 Datalog 규칙을 사용해 그래프를 조회합니다. 규칙 위반이 감지되면 해당 행동이 차단되고 에이전트에 오류가 반환됩니다.
Compilation Guarantees – 모니터가 부작용이 발생하기 전에 정책을 강제하기 때문에, 기반 LLM이 프롬프트를 어떻게 해석하든 시스템이 증명 가능한 준수성을 유지합니다.

결과 및 발견

시나리오	기본 준수율	PCAS‑Enabled 준수율
프롬프트‑인젝션 방어 (LLM‑4)	48 %	93 %
다중‑에이전트 약물감시 워크플로우 (LLM‑3.5)	55 %	96 %
엔터프라이즈 고객‑서비스 (LLM‑4‑Turbo)	51 %	94 %

정책 준수가 모든 테스트 모델에서 크게 향상되어, 레퍼런스 모니터가 허용되지 않은 행동을 신뢰성 있게 차단함을 확인했습니다.
오탐이 전혀 없음: 정책을 만족하는 정상적인 행동은 전혀 차단되지 않았습니다.
성능 오버헤드는 적당한 수준을 유지합니다(상호작용당 평균 지연 증가 12–18 ms), 따라서 PCAS는 실시간 서비스에 적합합니다.

Practical Implications

Secure Deployments – 기업은 이제 외부에서 결정적이며 강제되는 정책 덕분에, 교묘한 프롬프트가 내부 제어를 우회할까 걱정하지 않고 LLM 에이전트를 배포할 수 있습니다.
Regulatory Alignment – 엄격한 데이터 처리 규칙을 가진 산업(헬스케어, 금융, 제약)은 정책 언어에 GDPR, HIPAA, FDA 스타일 제약을 직접 인코딩하여 규정 준수를 확신할 수 있습니다.
Multi‑Agent Coordination – 한 에이전트의 출력이 다른 에이전트에 전달되는 복잡한 파이프라인에서 PCAS의 종속성 그래프는 출처를 끝까지 추적하여 우발적인 유출이나 무단 권한 상승을 방지합니다.
Rapid Prototyping – 개발자는 기존 LLM 코드를 그대로 유지할 수 있으며, PCAS는 즉시 적용 가능한 래퍼 역할을 하여 에이전트를 강화하는 데 필요한 엔지니어링 작업을 크게 줄입니다.
Auditability – 그래프와 규칙 평가가 명확하고 쿼리 가능한 감사 로그를 제공하여 사후 조사를 간소화하고 규정 감사자를 만족시킵니다.

제한 사항 및 향후 작업

정책 언어 표현력 – Datalog가 많은 출처 추적 및 흐름 제약을 다루지만, 보다 미묘한 시간적 또는 확률적 정책은 확장이 필요할 수 있습니다.
의존성 그래프의 확장성 – 매우 긴 대화나 고처리량 다중 에이전트 시스템은 그래프가 크게 성장할 수 있으며, 점진적 가지치기 전략은 아직 연구가 필요한 분야입니다.
폐쇄형 LLM API와의 통합 – 현재 프로토타입은 모든 툴 호출을 가로챌 수 있다고 가정하며, 상업용 API(e.g., OpenAI, Anthropic)와의 보다 긴밀한 통합은 제공업체와의 협력이 필요할 수 있습니다.
사용자 대상 오류 처리 – 정책이 동작을 차단할 경우, 에이전트는 현재 일반 오류를 반환합니다; 보다 풍부한 피드백 메커니즘이 사용자 경험을 향상시킬 수 있습니다.

PCAS는 엄격한 컴파일 타임 보안을 빠르게 변화하는 LLM 에이전트 세계에 적용할 수 있음을 보여주며, 강력한 생성 모델과 프로덕션 환경의 엄격한 거버넌스 요구 사이의 격차를 메워줍니다.

저자

Nils Palumbo
Sarthak Choudhary
Jihye Choi
Prasad Chalasani
Mihai Christodorescu
Somesh Jha

논문 정보

arXiv ID: 2602.16708v1
Categories: cs.CR, cs.AI, cs.MA
Published: 2026년 2월 18일
PDF: PDF 다운로드

[Paper] 보안 에이전틱 시스템을 위한 정책 컴파일러

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[논문] Sink-Aware Pruning for Diffusion Language Models

[논문] MARS: Margin-Aware Reward-Modeling with Self-Refinement

[Paper] 다중 라운드 인간‑AI 협업 및 사용자 지정 요구사항

[Paper] 블랙-박스 LVLM 공격의 전선을 세밀한 디테일 타깃팅으로 확장