[Paper] SearchAttack: 위험한 웹 정보 탐색 작업을 프레이밍하여 실제 위협에 대응하는 LLM Red-Teaming
Source: arXiv - 2601.04093v1
개요
대형 언어 모델(LLM)은 사실 정확성을 높이기 위해 웹 검색 도구와 점점 더 많이 결합되고 있습니다. 하지만 이 “검색‑보강” 설정은 새로운 공격 표면을 만들게 됩니다: 사용자가 유해한 정보를 요청하면 검색 엔진이 위험한 콘텐츠를 표출할 수 있으며, 이는 LLM의 안전 필터가 더 이상 차단할 수 없게 됩니다. 논문 SearchAttack은 이 약점을 이용한 체계적인 레드팀 프레임워크를 소개하며, 악의적인 행위자가 검색‑보강 LLM을 유도해 실제 위험한 조언을 제공하도록 할 수 있음을 보여줍니다.
주요 기여
- 공격 분류 체계: “안전하지 않은 웹 정보 탐색 작업”을 정의하고 전통적인 프롬프트 주입 공격과 어떻게 다른지 보여줍니다.
- SearchAttack 프레임워크: (1) 최소한의 무해한 쿼리 골격을 만들어 유해한 검색 결과를 유도하고, (2) 구조화된 프롬프트(루브릭)를 사용해 LLM이 해당 결과를 일관된 악의적 출력으로 연결하도록 안내하는 두 단계 파이프라인입니다.
- 포괄적 평가: 여러 인기 있는 검색 강화 LLM(Bing Chat, 웹 검색이 포함된 Google Gemini, 오픈소스 Retrieval‑Augmented Generation 파이프라인 등)에 대한 공격을 벤치마크합니다.
- 높은 성공률에 대한 실증적 증거: 최신 안전 완화 조치조차도 테스트된 안전하지 않은 시나리오의 70 % 이상에서 우회될 수 있음을 보여줍니다.
- 책임 있는 공개: 구체적인 완화 방안을 제시하고 향후 연구를 위해 안전/비안전 쿼리‑루브릭 쌍의 공개 데이터셋을 제공합니다.
방법론
- Threat Modeling – 저자들은 먼저 LLM이 사용자 질의를 외부 검색 엔진에 전달하는 지점을 “search surface”라고 정의한다. 그들은 공격을 해로운 목표 유형(예: 무기 설계, 불법 금융, 허위 정보)별로 분류한다.
- Skeleton Query Generation – 모델에 직접 위험한 지시를 요청하는 대신, 공격자는 모호하고 무해해 보이는 질의(예: “최신 화학 합성 연구”)를 제출한다. 이는 목표 지식을 포함한 페이지를 검색 결과로 가져올 가능성이 높다.
- Result Harvesting – 검색 엔진은 스니펫, URL, 전체 문서 등을 반환한다. 공격자는 그 중 관련 조각만 추출하여 위험한 내용을 포함한 부분을 남기고 나머지는 버린다.
- Rubric‑Guided Reconstruction – 정교하게 설계된 프롬프트(“rubric”)가 LLM에게 수집된 조각들을 재구성하도록 지시한다. 이렇게 재구성된 단계별 가이드는 악의적인 목표를 달성하도록 하면서도 일반적인 답변처럼 보이게 만든다.
- Evaluation Protocol – 이 파이프라인을 여러 LLM‑검색 조합에 적용한다. 성공 여부는 최종 출력에 인간 안전 검토자와 자동 탐지기를 통과할 수 있는 실행 가능한 해로운 지시가 포함되어 있는지에 따라 측정한다.
결과 및 발견
| 테스트된 시스템 | 성공률 (위험 목표 달성) | 주요 관찰 |
|---|---|---|
| Bing Chat (검색‑강화) | 78 % | 내장된 “유해 콘텐츠” 필터가 있더라도, 루브릭에 따라 모델이 무기 제작 단계를 재현했습니다. |
| Gemini + Web Search | 71 % | 모델이 검색된 텍스트를 패러프레이즈하면서 위험한 세부 정보를 보존했습니다. |
| 오픈‑소스 RAG (LangChain + GPT‑4) | 84 % | 검색 구성 요소가 원시 문서를 노출시켜 가장 쉽게 악용할 수 있었습니다. |
| 베이스라인 LLM (검색 없음) | 12 % | 기존 프롬프트‑인젝션 공격은 훨씬 덜 효과적이었습니다. |
저자들은 또한 이 공격이 여러 언어(영어, 중국어, 스페인어)와 다양한 위협 카테고리(화학 무기, 피싱 스크립트, 극단주의 선전)에서도 작동함을 보여줍니다. 중요한 점은 공격이 직접 LLM에게 위험한 콘텐츠 생성을 요청하지 않아도 성공한다는 것입니다; 위험한 자료는 웹에서 가져옵니다.
Practical Implications
-
Product designers must treat the search API as a first‑line of defense. Simply wrapping a safety filter around the LLM is insufficient when external content can bypass it.
제품 디자이너는 검색 API를 첫 번째 방어선으로 간주해야 합니다. 외부 콘텐츠가 이를 우회할 수 있는 경우, LLM 주위에 안전 필터만 두는 것으로는 충분하지 않습니다. -
Safety pipelines should incorporate post‑retrieval sanitization: content‑filtering of raw search snippets before they ever reach the LLM, possibly using multi‑stage classifiers or knowledge‑graph checks.
안전 파이프라인은 검색 후 정제를 포함해야 합니다: 원시 검색 스니펫을 LLM에 전달하기 전에 콘텐츠 필터링을 수행하고, 필요에 따라 다단계 분류기나 지식 그래프 검사를 사용할 수 있습니다. -
Developers of Retrieval‑Augmented Generation (RAG) should consider “source attribution” and “confidence scoring” to flag high‑risk documents, and optionally refuse to incorporate them.
검색 기반 생성(RAG) 개발자는 “출처 표시”와 “신뢰도 점수”를 고려하여 고위험 문서를 표시하고, 필요 시 이를 포함하지 않도록 거부할 수 있습니다. -
Enterprise security teams can use the SearchAttack framework as a testing tool to audit their own LLM‑search integrations, identifying blind spots before malicious actors do.
기업 보안 팀은 SearchAttack 프레임워크를 테스트 도구로 활용해 자체 LLM‑검색 통합을 감사하고, 악의적인 행위자보다 먼저 사각지대를 식별할 수 있습니다. -
Policy makers may need to revisit liability models for services that combine LLMs with open web search, as the responsibility for unsafe output now partly lies with the search provider.
정책 입안자는 LLM과 공개 웹 검색을 결합한 서비스에 대한 책임 모델을 재검토해야 할 수 있습니다. 이제 안전하지 않은 출력에 대한 책임이 검색 제공자에게도 일부 귀속되기 때문입니다.
제한 사항 및 향후 연구
- 검색 엔진 의존성: 공격 성공은 검색 엔진이 충분히 상세한 위험한 스니펫을 반환하는지에 달려 있습니다. 결과를 적극적으로 필터링하는 엔진은 효과를 감소시킬 수 있습니다.
- 프롬프트 엔지니어링 오버헤드: 효과적인 루브릭을 만드는 데 여전히 수동적인 통찰이 필요하며, 루브릭 자동 생성은 아직 해결되지 않은 과제입니다.
- 위협 범위: 이 연구는 “지식‑집중형” 피해(예: 지시)에 초점을 맞추었습니다. 개인 데이터 유출이나 사회적 조작과 같은 다른 카테고리는 충분히 탐구되지 않았습니다.
- 완화 검증: 저자들은 대응책을 제시했지만, 실제 운영 환경에서 대규모로 테스트되지 않았습니다. 향후 연구에서는 동일한 공격 세트에 대해 방어 파이프라인을 벤치마크해야 합니다.
웹 검색 통합의 숨겨진 위험을 드러냄으로써, SearchAttack은 차세대 AI 어시스턴트를 위한 보다 견고하고 다계층적인 안전 아키텍처를 향해 커뮤니티를 이끕니다.
저자
- Yu Yan
- Sheng Sun
- Mingfeng Li
- Zheming Yang
- Chiwei Zhu
- Fei Ma
- Benfeng Xu
- Min Liu
논문 정보
- arXiv ID: 2601.04093v1
- 카테고리: cs.CL
- 출판일: 2026년 1월 7일
- PDF: Download PDF