[Paper] WebSentinel: 웹 에이전트를 위한 프롬프트 인젝션 공격 탐지 및 위치 파악

발행: 5일 전 (2026년 2월 4일 오전 02:55 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2602.03792v1

번역을 진행하려면 번역하고자 하는 전체 텍스트(예: 초록, 본문, 섹션 등)를 제공해 주시겠어요? 제공해 주신 내용만을 한국어로 번역해 드리겠습니다.

개요

웹 에이전트—페이지 내용을 읽고 사용자 명령에 따라 행동하는 브라우저 기반 어시스턴트—는 점점 더 프롬프트 인젝션 공격의 표적이 되고 있습니다. 이 공격은 악성 페이지 요소가 에이전트의 지시를 가로채는 형태입니다. 논문 WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents는 실제 웹 페이지에서 이러한 숨겨진 조작을 자동으로 탐지하고 위치를 파악할 수 있는 실용적인 2단계 시스템을 소개합니다.

주요 기여

2단계 탐지 파이프라인 – 먼저 “관심 세그먼트”(잠재적으로 악성 스니펫)를 분리하고, 그 다음 각 세그먼트를 페이지 전체 컨텍스트와 대조하여 검증합니다.
컨텍스트 일관성 점수 – 경량의 언어 모델 기반 메트릭으로, 세그먼트의 프롬프트가 페이지 나머지와 얼마나 잘 맞는지를 측정합니다.
포괄적인 벤치마크 – 저자들은 깨끗한 페이지와 오염된 페이지(전자상거래, 뉴스, 문서 사이트 등)의 다양한 데이터셋을 구축하여 탐지 및 위치 파악 성능을 평가했습니다.
오픈소스 구현 – 전체 코드와 데이터가 공개되어 재현성을 보장하고 기존 웹 에이전트 파이프라인에 쉽게 통합할 수 있습니다.
뛰어난 성능 향상 – WebSentinel은 기존 베이스라인(규칙 기반 필터, 단일 단계 분류기)보다 정밀도와 재현율 모두에서 큰 차이로 우수한 성능을 보입니다.

방법론

세그먼트 추출 (Step I)
- 웹페이지의 DOM을 파싱하여 논리적 블록(예: <div>, <section>, script 태그)으로 분할합니다.
- 텍스트 길이, 코드와 유사한 패턴 존재 여부, 사용자에게 보이는 콘텐츠와의 근접성 등의 휴리스틱을 사용해 “관심 세그먼트”를 표시합니다.
맥락 일관성 검사 (Step II)
- 각 후보 세그먼트를 페이지의 나머지 부분과 함께 사전 학습된 대형 언어 모델(LLM)에 입력합니다.
- 모델은 세그먼트 프롬프트가 주변 텍스트의 자연스러운 연속일 가능성을 측정하여 일관성 점수를 생성합니다.
- 점수가 낮은 세그먼트는 잠재적인 프롬프트 삽입으로 표시되며, 점수는 위치 파악 신호로도 활용됩니다.

파이프라인은 의도적으로 모델에 구애받지 않으며, 텍스트 완성 API를 가진 모든 LLM을 교체하여 사용할 수 있어 모델 기능이 발전함에 따라 접근 방식을 조정할 수 있습니다.

결과 및 발견

측정항목	정상 페이지	오염된 페이지
정밀도	0.96	0.94
재현율	0.93	0.91
F1‑점수	0.95	0.92
위치 정확도 (top‑1)	–	0.88

WebSentinel는 오염된 페이지에서 가장 강력한 베이스라인(미세 조정된 BERT 분류기)을 지속적으로 +12% F1 능가합니다.
두 단계 설계는 위양성을 크게 감소시킵니다; 대부분의 정상 스크립트는 단계 I 이후 무시됩니다.
소거 연구에 따르면 컨텍스트 일관성 검사를 제거하면 재현율이 약 15% 감소하며, 이는 해당 검사의 핵심 역할을 확인시켜 줍니다.

Practical Implications

Secure browser extensions & AI assistants – 개발자는 WebSentinel을 사전 필터로 삽입하여 악성 프롬프트가 LLM 백엔드에 도달하지 않도록 할 수 있습니다.
Enterprise web‑scraping pipelines – 자동화된 크롤러는 손상된 것으로 표시된 페이지를 자동으로 폐기하거나 격리하여 하위 분석을 보호합니다.
Compliance & content moderation – 로컬라이제이션 출력은 정확한 DOM 요소를 지정하여, 전체 페이지 차단이 아닌 대상별 정화가 가능하게 합니다.
Low overhead – Step I가 검색 공간을 축소하기 때문에, 비용이 많이 드는 LLM 점수 계산은 페이지당 소수의 세그먼트에만 수행되어 대화형 에이전트에 적합한 지연 시간을 유지합니다.

제한 사항 및 향후 작업

LLM 품질 의존성 – 일관성 점수는 기본 모델이 도메인을 이해하는 정도에 달려 있습니다; 틈새이거나 고도로 기술적인 페이지는 노이즈가 많은 점수를 초래할 수 있습니다.
회피 전술 – 공격자는 주변 컨텍스트를 더 가깝게 모방하는 인젝션을 만들 수 있어 탐지율이 낮아질 가능성이 있습니다.
정적 분석만 – 현재 시스템은 렌더링된 HTML에서 작동합니다; 페이지 로드 후 클라이언트 측 스크립트로 로드되는 동적 콘텐츠는 아직 포함되지 않습니다.

향후 방향으로는 JavaScript 실행의 런타임 모니터링 통합, 일관성 스코어러를 강화하기 위한 적대적 학습 탐색, 그리고 웹페이지에 삽입된 이미지나 오디오를 처리하는 멀티모달 에이전트로 프레임워크를 확장하는 것이 포함됩니다.

저자

Xilong Wang
Yinuo Liu
Zhun Wang
Dawn Song
Neil Gong

논문 정보

arXiv ID: 2602.03792v1
카테고리: cs.CR, cs.AI, cs.CL
출판일: 2026년 2월 3일
PDF: PDF 다운로드

[Paper] WebSentinel: 웹 에이전트를 위한 프롬프트 인젝션 공격 탐지 및 위치 파악

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 쿼리 인식 예산-계층 라우팅 학습 for Runtime Agent Memory

[Paper] Self-Distillation을 통한 멀티 토큰 예측

[Paper] OpenAI의 Whisper 표현과 어텐티브 풀링 방법을 활용한 음성 감정 인식

[Paper] 인간 Semantic Navigation in Concept Production을 Embedding Space의 Trajectories로 특성화