[Paper] 에이전트가 스스로 물러날까? LLM-Agent가 In-Band Access-Deny Signals에 대한 준수 측정

발행: 6일 전 (2026년 6월 5일 AM 02:50 GMT+9)

4 분 소요

원문: arXiv

Source: arXiv - 2606.06460v1

Overview

자율 LLM 에이전트가 실제 자격 증명을 보유하고 인간이 개입하지 않은 상태로 인프라를 운영함에 따라, 운영자는 에이전트에게 특정 자원이 접근 금지임을 알릴 표준적인 방법이 없습니다. 접근 제어는 에이전트를 허용하거나(유효한 자격 증명 보유) 완전히 차단하거나(다른 클라이언트와 구분 불가) 합니다.

우리는 세 번째 모드를 제안합니다: 경량의, 프로토콜 기존 채널(예: SSH 배너, PostgreSQL NOTICE) 위에서 서버가 발행하는 Recuse Signal이라는 인밴드 거부 신호. 이는 연결된 자동화 에이전트에게 자발적으로 물러나도록 요청하는 신호이며, 협력적 거버넌스 제어, 실시간 접근을 위한 robots.txt 유사물로, 보안 경계가 아니라는 점을 명시합니다.

그 가치는 전적으로 경험적이며, 현재까지 측정된 바가 없습니다: 준수하는 LLM 에이전트가 실제로 이러한 신호를 존중할까요? 우리는 이 신호를 개방형 미니 표준으로 정의하고, 두 개의 무(또는 저) footprint 어댑터(SSH 배너/PAM 훅 및 PostgreSQL 와이어 프로토콜 프록시)를 구현했으며, 이를 실시간 프로덕션 호스트에 배포하고, 새로운 에이전트에게 무해한 운영 작업을 부여하고 회피 여부를 관찰하는 통제된 실험을 수행했습니다.

파일럿 실험(SSH; OpenAI GPT‑4o 및 GPT‑4o‑mini; 그리고 배포된 에이전트로서 Claude Code)에서, 신호는 회피를 명확히 유도했습니다 — 신호가 있을 때 100 % 회피 대 신호가 없을 때 100 % 작업 완료. 또한, 이 신호는 절대적인 것이 아니라 협력적인 신호로 작동합니다: 명시적인 운영자‑인가 프레이밍을 통해 가장 능력 있는 모델은 진행하도록 전환되지만, 다른 에이전트는 여전히 호스트 정책에 따릅니다.

우리는 표준, 어댑터, 그리고 실험 하니스(프레임워크)를 재현을 위해 공개합니다.

Key Contributions

Research Areas:
- cs.CR
- cs.AI

Methodology

자세한 방법론은 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.CR 분야의 발전에 기여합니다.

Authors

Thamilvendhan Munirathinam

Paper Information

arXiv ID: 2606.06460v1
Categories: cs.CR, cs.AI
Published: June 4, 2026
PDF: Download PDF

[Paper] 에이전트가 스스로 물러날까? LLM-Agent가 In-Band Access-Deny Signals에 대한 준수 측정

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법