[Paper] SPELL 시전: LLM 제한 돌파를 위한 문장 쌍 탐색

발행: (2025년 12월 25일 오전 12:25 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.21236v1

개요

이 논문은 SPELL이라는 테스트 프레임워크를 소개합니다. 이 프레임워크는 대형 언어 모델(LLM)이 악성 코드를 생성하도록 유도하는 “탈옥(jailbreak)” 프롬프트에 얼마나 잘 저항하는지를 조사합니다. 자동으로 정교한 문장 쌍 프롬프트를 생성함으로써, 저자들은 최신 코드 모델조차도 해로운 스크립트를 만들어내도록 유도될 수 있음을 보여주며, AI 기반 개발 도구에 심각한 보안 취약점이 존재함을 드러냅니다.

주요 기여

  • SPELL 프레임워크: 선별된 지식 베이스의 문장을 혼합하여 다양한 탈옥 프롬프트를 생성하는 체계적이고 시간 분할 선택 전략.
  • 포괄적 평가: 8개의 서로 다른 악성 코드 카테고리에 걸쳐 세 가지 주요 코드 생성 모델(GPT‑4.1, Claude‑3.5, Qwen2.5‑Coder)에서 공격을 테스트함.
  • 높은 성공률: 모델이 악성 코드를 출력하도록 하는 데 각각 83.75 %(GPT‑4.1), 19.38 %(Claude‑3.5), 68.12 %(Qwen2.5‑Coder)의 성공률을 달성함.
  • 실제 검증: 생성된 프롬프트가 실제 AI 코딩 어시스턴트(예: Cursor)에서 악성 출력을 성공적으로 유발했으며, 탐지 도구가 해당 출력의 >73 %를 위험으로 표시함.
  • 통찰력 있는 분석: LLM의 보안 정렬이 실패하는 패턴을 식별하여 향후 안전 강화 작업을 위한 구체적인 데이터를 제공함.

방법론

  1. Knowledge Dataset Construction지식 데이터셋 구축 – 저자들은 다양한 해킹 기법, 익스플로잇 페이로드, 코드‑생성 트릭을 설명하는 문장들을 대규모로 수집했습니다.
  2. Time‑Division Selection시간 분할 선택 – 무작위 샘플링 대신, SPELL은 두 단계 사이를 교대로 진행합니다:
    • Exploration탐색 – 새로운 공격 벡터를 발견하기 위해 새로운 문장 조합을 선택합니다.
    • Exploitation활용 – 이전에 성공한 문장 쌍을 재사용하여 성공률을 높입니다.
  3. Prompt Assembly프롬프트 조합 – 각 탈옥 프롬프트는 선택된 두 문장을 연결해 구성됩니다(따라서 “문장 페어링”). 생성된 프롬프트는 대상 LLM에 입력됩니다.
  4. Evaluation Pipeline평가 파이프라인
    • 프롬프트를 각 코드 모델에 실행합니다.
    • 출력물을 8가지 악성 카테고리 중 하나로 분류합니다(예: 랜섬웨어, 백도어, 데이터 유출).
    • 두 개의 독립적인 탐지 도구로 악성 여부를 확인합니다.
  5. Metrics측정 지표 – 성공은 (a) 모델이 목표 카테고리의 코드를 생성했는지, (b) 탐지 도구가 해당 코드를 악성으로 확인했는지에 따라 측정됩니다.

Results & Findings

ModelOverall Success RateHighest Category Success
GPT‑4.183.75 %원격 코드 실행 (≈92 %)
Claude‑3.519.38 %자격 증명 탈취 스크립트 (≈27 %)
Qwen2.5‑Coder68.12 %데이터 유출 유틸리티 (≈74 %)
  • 프롬프트 효율성 – 시간 분할 전략을 사용하면 순수 무작위 매칭에 비해 시도 횟이가 약 30 % 감소했습니다.
  • 도구 간 일관성 – 동일한 악성 프롬프트를 Cursor IDE에서 사용할 경우, 생성된 코드는 기능을 유지했으며 산업 표준 스캐너(예: GitHub Advanced Security, Snyk)에서 73 % 이상이 위험으로 표시되었습니다.
  • 모델별 약점 – GPT‑4.1은 특히 “시스템‑레벨”과 “네트워크‑레벨” 문장 조각을 결합한 프롬프트에서 가장 높은 취약성을 보였습니다. Claude‑3.5의 낮은 비율은 내부 방어 장치가 더 강력함을 시사하지만, 정교하게 구성된 쌍에는 여전히 취약합니다.

Practical Implications

  • AI‑assisted IDEs need tighter guardrails – LLM 코드 어시스턴트를 통합하는 개발자는 모델을 잠재적인 공격 표면으로 간주해야 하며, 단순 키워드 필터만으로는 충분하지 않습니다.
  • Security testing pipelines – SPELL은 컴파일러에 대한 퍼즈 테스트와 유사하게, 출시 전 모든 새로운 코드‑생성 모델에 대한 회귀 테스트로 채택될 수 있습니다.
  • Policy & compliance – LLM‑기반 자동화를 도입하는 조직은 위험 평가에 “jailbreak‑induced malicious code”(탈옥에 의해 유발된 악성 코드)를 위협 벡터로 포함하도록 업데이트해야 합니다.
  • Tooling for defenders – 문장‑쌍 기술을 재활용하여 적대적 예제를 생성하면 탐지 모델을 개선하고, 보다 견고한 악성‑코드 분류기를 만들 수 있습니다.
  • Developer awareness – 숙련된 프로그래머라도 해로운 코드 조각을 받아들이도록 속을 수 있으므로, 코드 리뷰 프로세스에 AI‑출력 검증 단계를 포함해야 합니다.

제한 사항 및 향후 작업

  • 데이터셋 편향 – 지식 베이스가 수동으로 선별되었기 때문에, 이 집합에 포함되지 않은 새로운 공격 기법은 다르게 동작할 수 있습니다.
  • 모델 범위 – 세 가지 상용 코드 모델만 평가했으며, 오픈소스 대안이나 향후 출시되는 모델은 다른 행동을 보일 수 있습니다.
  • 탐지 의존성 – 검증이 기존 스캐너에 의존하고 있는데, 이 스캐너 자체가 새로운 페이로드를 놓칠 가능성이 있습니다.
  • 향후 방향 – 저자들은 SPELL을 자동화된 지식 베이스 마이닝(예: 보안 포럼에서)으로 확장하고, 쌍을 넘어서는 다문장 체인링을 탐구하며, 발견된 탈옥 패턴에 적응하는 강화학습 기반 방어를 통합할 계획입니다.

저자

  • Yifan Huang
  • Xiaojun Jia
  • Wenbo Guo
  • Yuqiang Sun
  • Yihao Huang
  • Chong Wang
  • Yang Liu

논문 정보

  • arXiv ID: 2512.21236v1
  • 카테고리: cs.CR, cs.AI, cs.SE
  • 출판일: 2025년 12월 24일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...