[Paper] SPELL 시전: LLM 제한 돌파를 위한 문장 쌍 탐색

발행: 1개월 전 (2025년 12월 25일 오전 12:25 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2512.21236v1

개요

이 논문은 SPELL이라는 테스트 프레임워크를 소개합니다. 이 프레임워크는 대형 언어 모델(LLM)이 악성 코드를 생성하도록 유도하는 “탈옥(jailbreak)” 프롬프트에 얼마나 잘 저항하는지를 조사합니다. 자동으로 정교한 문장 쌍 프롬프트를 생성함으로써, 저자들은 최신 코드 모델조차도 해로운 스크립트를 만들어내도록 유도될 수 있음을 보여주며, AI 기반 개발 도구에 심각한 보안 취약점이 존재함을 드러냅니다.

주요 기여

SPELL 프레임워크: 선별된 지식 베이스의 문장을 혼합하여 다양한 탈옥 프롬프트를 생성하는 체계적이고 시간 분할 선택 전략.
포괄적 평가: 8개의 서로 다른 악성 코드 카테고리에 걸쳐 세 가지 주요 코드 생성 모델(GPT‑4.1, Claude‑3.5, Qwen2.5‑Coder)에서 공격을 테스트함.
높은 성공률: 모델이 악성 코드를 출력하도록 하는 데 각각 83.75 %(GPT‑4.1), 19.38 %(Claude‑3.5), 68.12 %(Qwen2.5‑Coder)의 성공률을 달성함.
실제 검증: 생성된 프롬프트가 실제 AI 코딩 어시스턴트(예: Cursor)에서 악성 출력을 성공적으로 유발했으며, 탐지 도구가 해당 출력의 >73 %를 위험으로 표시함.
통찰력 있는 분석: LLM의 보안 정렬이 실패하는 패턴을 식별하여 향후 안전 강화 작업을 위한 구체적인 데이터를 제공함.

방법론

Knowledge Dataset Construction – 지식 데이터셋 구축 – 저자들은 다양한 해킹 기법, 익스플로잇 페이로드, 코드‑생성 트릭을 설명하는 문장들을 대규모로 수집했습니다.
Time‑Division Selection – 시간 분할 선택 – 무작위 샘플링 대신, SPELL은 두 단계 사이를 교대로 진행합니다:
- Exploration – 탐색 – 새로운 공격 벡터를 발견하기 위해 새로운 문장 조합을 선택합니다.
- Exploitation – 활용 – 이전에 성공한 문장 쌍을 재사용하여 성공률을 높입니다.
Prompt Assembly – 프롬프트 조합 – 각 탈옥 프롬프트는 선택된 두 문장을 연결해 구성됩니다(따라서 “문장 페어링”). 생성된 프롬프트는 대상 LLM에 입력됩니다.
Evaluation Pipeline – 평가 파이프라인 –
- 프롬프트를 각 코드 모델에 실행합니다.
- 출력물을 8가지 악성 카테고리 중 하나로 분류합니다(예: 랜섬웨어, 백도어, 데이터 유출).
- 두 개의 독립적인 탐지 도구로 악성 여부를 확인합니다.
Metrics – 측정 지표 – 성공은 (a) 모델이 목표 카테고리의 코드를 생성했는지, (b) 탐지 도구가 해당 코드를 악성으로 확인했는지에 따라 측정됩니다.

Results & Findings

Model	Overall Success Rate	Highest Category Success
GPT‑4.1	83.75 %	원격 코드 실행 (≈92 %)
Claude‑3.5	19.38 %	자격 증명 탈취 스크립트 (≈27 %)
Qwen2.5‑Coder	68.12 %	데이터 유출 유틸리티 (≈74 %)

프롬프트 효율성 – 시간 분할 전략을 사용하면 순수 무작위 매칭에 비해 시도 횟이가 약 30 % 감소했습니다.
도구 간 일관성 – 동일한 악성 프롬프트를 Cursor IDE에서 사용할 경우, 생성된 코드는 기능을 유지했으며 산업 표준 스캐너(예: GitHub Advanced Security, Snyk)에서 73 % 이상이 위험으로 표시되었습니다.
모델별 약점 – GPT‑4.1은 특히 “시스템‑레벨”과 “네트워크‑레벨” 문장 조각을 결합한 프롬프트에서 가장 높은 취약성을 보였습니다. Claude‑3.5의 낮은 비율은 내부 방어 장치가 더 강력함을 시사하지만, 정교하게 구성된 쌍에는 여전히 취약합니다.

Practical Implications

AI‑assisted IDEs need tighter guardrails – LLM 코드 어시스턴트를 통합하는 개발자는 모델을 잠재적인 공격 표면으로 간주해야 하며, 단순 키워드 필터만으로는 충분하지 않습니다.
Security testing pipelines – SPELL은 컴파일러에 대한 퍼즈 테스트와 유사하게, 출시 전 모든 새로운 코드‑생성 모델에 대한 회귀 테스트로 채택될 수 있습니다.
Policy & compliance – LLM‑기반 자동화를 도입하는 조직은 위험 평가에 “jailbreak‑induced malicious code”(탈옥에 의해 유발된 악성 코드)를 위협 벡터로 포함하도록 업데이트해야 합니다.
Tooling for defenders – 문장‑쌍 기술을 재활용하여 적대적 예제를 생성하면 탐지 모델을 개선하고, 보다 견고한 악성‑코드 분류기를 만들 수 있습니다.
Developer awareness – 숙련된 프로그래머라도 해로운 코드 조각을 받아들이도록 속을 수 있으므로, 코드 리뷰 프로세스에 AI‑출력 검증 단계를 포함해야 합니다.

제한 사항 및 향후 작업

데이터셋 편향 – 지식 베이스가 수동으로 선별되었기 때문에, 이 집합에 포함되지 않은 새로운 공격 기법은 다르게 동작할 수 있습니다.
모델 범위 – 세 가지 상용 코드 모델만 평가했으며, 오픈소스 대안이나 향후 출시되는 모델은 다른 행동을 보일 수 있습니다.
탐지 의존성 – 검증이 기존 스캐너에 의존하고 있는데, 이 스캐너 자체가 새로운 페이로드를 놓칠 가능성이 있습니다.
향후 방향 – 저자들은 SPELL을 자동화된 지식 베이스 마이닝(예: 보안 포럼에서)으로 확장하고, 쌍을 넘어서는 다문장 체인링을 탐구하며, 발견된 탈옥 패턴에 적응하는 강화학습 기반 방어를 통합할 계획입니다.

저자

Yifan Huang
Xiaojun Jia
Wenbo Guo
Yuqiang Sun
Yihao Huang
Chong Wang
Yang Liu

논문 정보

arXiv ID: 2512.21236v1
카테고리: cs.CR, cs.AI, cs.SE
출판일: 2025년 12월 24일
PDF: PDF 다운로드

[Paper] SPELL 시전: LLM 제한 돌파를 위한 문장 쌍 탐색

개요

주요 기여

방법론

Results & Findings

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 클라우드 애플리케이션의 코드 관련 사고 근본 원인 분석을 위한 Agentic Structured Graph Traversal

[Paper] 프루닝을 게임으로: 균형 기반 신경망 희소화

[Paper] 설명 가능한 Multimodal Regression via Information Decomposition

[Paper] A2P-Vis: 분석기-프레젠터 에이전틱 파이프라인을 통한 시각적 인사이트 생성 및 보고