AI 에이전트 런타임 컴플라이언스 검증
개요
AI 에이전트는 도구 사용, 함수 호출, 멀티 턴 대화 등을 통해 개인 데이터를 처리하며, 이는 일반 데이터 보호 규정(GDPR) 하에 의무를 만들 수 있습니다. 현재 테스트 관행은 주로 오프라인 레드 팀링이나 정적 프롬프트 검토에 크게 의존하지만, 런타임에서 에이전트 행동이 규정 준수를 보장하지 않습니다. 우리는 C‑Trace(Compliance Trace 기반 런타임 에이전트 적합성 강제)라는 검증 프레임워크를 제안합니다: (i) 에이전트 실행 트레이스에 대한 형식적 정책 술어로 GDPR 요구 사항의 일부를 표현합니다. 여기에는 동의, 목적 제한, 데이터 최소화, 삭제 권리 등이 포함됩니다; (ii) 도구 호출 및 모델 출력을 모두 가로채는 런타임 모니터를 사용해 비규정 준수 행동을 거부합니다; 그리고 (iii) 레드 팀링 코퍼라에서 가져온 정확한 프롬프트와 DSPy가 생성한 프롬프트를 포함한 공격 대화를 사용해 에이전트를 테스트하여 위반을 유도합니다. 우리는 이 프레임워크를 GDPR로 재구성된 네 개의 케이스 스터디에 적용해 평가합니다. 추출기 노이즈가 카테고리별 10% 미만(드롭아웃 및 오버타이핑 포함)인 경우, 모니터는 공격 성공률을 12% 이하로 유지하고, 비교 대상 베이스라인보다 낮으며, 거짓 양성률은 16% 이하로 제한합니다. 완벽한 추출 시 ASR(Attack Success Rate)는 0%에 도달합니다.
주요 기여
- cs.SE
방법론
자세한 방법은 논문 전체를 참고하십시오.
실용적 의미
이 연구는 cs.SE의 발전에 기여합니다.
저자
- Nafiseh Kahani
- Masoud Barati
- Diana Addae
논문 정보
- arXiv ID: 2606.19242v1
- 카테고리: cs.SE
- 발행일: June 17, 2026
- PDF: PDF 다운로드