[논문] AgentTrust: AI 에이전트 행동을 위한 자체 개선 신뢰 계층

발행: (2026년 6월 7일 PM 06:39 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.08539v1

Overview

AI 에이전트가 점점 더 중요한 행동—쉘 명령, 클라우드 작업, 임의의 도구 호출—을 수행함에 따라, 신뢰 계층은 각 행동마다 허용, 경고, 차단 또는 에스컬레이션을 결정해야 합니다. 우리는 이러한 계층을 위협 유형별로 사고하는 것이 올바른 방법이라고 주장합니다. 위험이 고정된 토큰에 존재하는 어휘적(고정 서명) 위협은 결정론적 규칙으로 판단할 수 있지만, 선량한 행동과 악의적인 행동이 동일한 표면을 공유하는 의미적(의도 의존) 위협은 규칙만으로는 다룰 수 없습니다. 이를 부정적 증명으로 구체화합니다: 손수 만든 클라우드 규칙 팩은 전체 보류 정확도를 48 %에서 56 %로 올릴 뿐이며, 의미 카테고리는 0 pp(데이터_db 29→29, 관측성 59→59, 공급망 50→50) 변동이 없습니다. 반면 강력한 LLM 판사는 정확히 그 카테고리를 담당합니다. 우리는 판사에게 자체 학습 능력을 부여합니다: 주로 의미 공격으로 구성된 코퍼스에서 규칙 정확도를 거의 두 배(48 % → 83.6‑85.2 %)로 끌어올리며, 오탐 차단은 거의 없습니다. 이는 두 모델 제공업체에 걸쳐 일관됩니다. 이를 자체 개선형 이중 저장소 시스템으로 전환합니다: 판사는 어휘적 위협에 대해 점점 확대되는 결정론적 규칙 바닥을 추출해(시간이 지날수록 비용 절감) 의미적 위협에 대해서는 보호된 RAG 메모리를 공급합니다(판단 캐시가 실패—표면 쌍이 ~58 %로 붕괴—따라서 검증 가드가 의미 정확도를 +13 pp, 70→84 로 상승). 이 결과가 AgentTrust v2를 정적 v1과 구별짓는 요소입니다: 자체 결정 흐름에서 스스로 진화하는 신뢰 계층—어휘 클래스에서는 자체 규칙을 추출해 비용을 절감하고, 의미 클래스에서는 보호된 선례를 축적해 스마트해지며, 선량한 행동을 절대 강제 차단하지 않습니다. 엔드‑투‑엔드 온라인 재생에서는 판사 호출 비율이 감소(50 %→44 %)하고, 판사 도메인 정확도가 상승(71 %→80 %)했으며, 45 000개 행동 중 선량한 강제 차단은 0건이었습니다.

Key Contributions

This paper presents research in the following areas:

  • cs.AI

Methodology

Please refer to the full paper for detailed methodology.

Practical Implications

This research contributes to the advancement of cs.AI.

Authors

  • Chenglin Yang

Paper Information

  • arXiv ID: 2606.08539v1
  • Categories: cs.AI
  • Published: June 7, 2026
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »