[Paper] 행동이 목표에서 벗어날 때: 컴퓨터 사용 에이전트의 비정렬 행동 탐지 및 교정

발행: 3일 전 (2026년 2월 10일 오전 03:41 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.08995v1

위에 제공된 텍스트를 번역하려면 실제 내용(예: 초록, 본문, 섹션 등)을 알려주시면 도와드릴 수 있습니다. 번역이 필요한 부분을 복사해서 붙여주시면 원본 형식과 마크다운 구문을 유지하면서 한국어로 번역해 드리겠습니다.

Overview

When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer‑Use Agents 논문은 대형 언어 모델(LLM) 기반 어시스턴트가 실제 소프트웨어를 제어하기 시작하면서 점점 더 두드러지는 문제를 다룹니다. 에이전트가 사용자 의도와 일치하지 않는 행동을 수행하는 경우가 흔히 발생합니다. 이러한 “정렬되지 않은” 행동은 악의적인 프롬프트 주입이나 단순한 추론 오류 때문에 발생할 수 있으며, 안전 위험과 시간 낭비를 초래합니다. 저자들은 이러한 행동을 체계적으로 감지하는 방법과 실행 전에 이를 차단하고 수정할 수 있는 가드레일 프레임워크 DeAction을 제안합니다.

주요 기여

컴퓨터 사용 에이전트의 비정렬 행동에 대한 공식 정의를 제공하며, 외부 공격과 내부 추론 실패를 모두 포괄합니다.
MisActBench: 인간이 주석을 달고 단계별 정렬 라벨을 부여한 현실적인 상호작용 트래젝터리를 포함하는 새로운 벤치마크.
DeAction: (1) 실행 전 비정렬 행동을 감지하고 (2) 구조화된 피드백을 통해 반복적으로 수정하는 범용 경량 가드레일.
실증 검증: MisActBench에서 기존 베이스라인 대비 F1 점수가 절대값 기준 15 % 이상 향상되었으며, 실시간 테스트에서 공격 성공률이 90 % 이상 감소했으며, 모두 지연 오버헤드가 최소 수준에 머물렀습니다.

Source: …

Methodology

Problem framing – 저자들은 각 에이전트가 생성한 행동(예: CLI 명령, 마우스 클릭)을 사용자의 원래 목표와 대조하여 검증해야 하는 후보로 간주합니다.
Dataset construction – 여러 CUA 배포에서 수집한 실제 사용 로그를 기반으로, 크라우드소싱 annotator들이 각 행동을 aligned(정렬됨) 또는 misaligned(정렬되지 않음)으로 라벨링했습니다. 그 결과 MisActBench는 파일 관리, 웹 브라우징, IDE 사용 등 다양한 도메인에서 수천 개의 다단계 세션을 포함합니다.
DeAction architecture –
- Detection module: 사용자 질의, 에이전트의 내부 계획, 제안된 다음 행동을 입력받아 이진 “aligned?” 점수와 신뢰도 추정치를 출력하는 경량 LLM(또는 파인튜닝된 분류기)입니다.
- Correction loop: 행동이 플래그될 경우, DeAction은 구조화된 피드백 메시지(예: “제안된 명령이 *.log 파일을 삭제하려고 하는데, 사용자는 임시 파일만 정리하라고 요청했습니다”)를 통해 기본 에이전트에게 re‑reason하도록 요청합니다. 에이전트는 수정된 행동을 생성합니다. 이 루프는 탐지기가 만족할 때까지 또는 최대 재시도 제한에 도달할 때까지 반복됩니다.
Evaluation – 오프라인(벤치마크 점수)과 온라인(샌드박스된 CUA와의 실시간 상호작용) 실험을 모두 수행했으며, DeAction을 정적 규칙 기반 필터, 사후 검증, 기존 정렬 검사 베이스라인과 비교했습니다.

결과 및 발견

Metric	Baseline (best)	DeAction
F1 (misalignment detection)	0.68	0.84 (+15 % 절대)
Attack success rate (indirect prompt injection)	0.42	0.04 (‑90 %)
Task success rate (benign queries)	0.91	0.92 (소폭 상승)
Average latency per step	120 ms	≈ 180 ms (≈ 60 ms 오버헤드)

핵심 요점: DeAction은 악의적이거나 오류가 있는 행동을 시스템에 영향을 주기 전에 대부분 차단하며, 반복적인 피드백을 통해 에이전트를 더 나은 해결책으로 유도해 전체 작업 성공률을 향상시키기도 합니다.

실용적 시사점

보다 안전한 자동화 파이프라인 – DeAction을 사전 실행 게이트로 통합하면 CI/CD 봇, DevOps 스크립트, 혹은 LLM 기반 자동화를 실수로 인한 파괴적 명령으로부터 보호할 수 있습니다.
기업 컴플라이언스 – 기업은 DeAction이 실시간으로 위반을 표시하도록 함으로써 정책 제약(예: “외부 도메인으로 데이터 내보내기 금지”)을 강제할 수 있습니다.
개발자 도구 – IDE 어시스턴트(GitHub Copilot, Cursor 등)는 DeAction을 사용해 파일 시스템이나 빌드 시스템 동작을 이중 확인함으로써 의도치 않은 부작용 위험을 줄일 수 있습니다.
대응성 강인성 – 이 프레임워크는 LLM 엔드포인트를 최종 사용자에게 노출하는 SaaS 제품에서 점점 더 우려되는 간접 프롬프트 인젝션 공격의 성공률을 크게 낮춥니다.

제한 사항 및 향후 작업

Domain specificity – MisActBench가 여러 일반적인 데스크톱 작업을 다루지만, 탐지 모델은 특수 도메인(예: 네트워크 장치 구성)에서 추가 미세 조정이 필요할 수 있습니다.
Latency trade‑off – 반복적인 수정 루프가 작지만 무시할 수 없는 지연을 추가합니다; 초저지연 사용 사례(예: 고빈도 트레이딩 봇)에는 보다 간소화된 버전이 필요할 수 있습니다.
Reliance on LLM reasoning – 기본 에이전트의 추론이 근본적으로 결함이 있다면, DeAction의 피드백이 올바른 행동으로 수렴하지 않을 수 있으며, 이는 더 강력한 내부 검증 메커니즘의 필요성을 강조합니다.
Future directions suggested by the authors include: 멀티모달 행동(예: GUI 클릭)으로 MisActBench를 확장하고, 시간이 지남에 따라 적응하는 강화학습 기반 가드레일을 탐구하며, 보다 깊은 안전 보장을 위해 정적 코드 분석 도구를 통합하는 것을 포함합니다.

저자

Yuting Ning
Jaylen Jones
Zhehao Zhang
Chentao Ye
Weitong Ruan
Junyi Li
Rahul Gupta
Huan Sun

논문 정보

arXiv ID: 2602.08995v1
카테고리: cs.CL
출판일: 2026년 2월 9일
PDF: PDF 다운로드

[Paper] 행동이 목표에서 벗어날 때: 컴퓨터 사용 에이전트의 비정렬 행동 탐지 및 교정

Overview

주요 기여

Methodology

결과 및 발견

실용적 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Weight Decay가 Language Model의 Plasticity를 향상시킨다

[Paper] Just on Time: 토큰 수준 조기 중단 for Diffusion Language Models

[Paper] TEGRA: 텍스트 인코딩과 그래프 및 검색 보강을 통한 허위정보 탐지

[Paper] Reasoning Models에서의 Safety Recovery는 몇 단계의 초기 Steering만으로도 가능