프롬프트웨어 킬 체인

발행: (2026년 2월 16일 오후 09:04 GMT+9)
12 분 소요

Source: Schneier on Security

소개

현대의 생성형 인공지능(AI) 대형 언어 모델(LLM)에 대한 공격은 실제 위협을 제기합니다. 그러나 이러한 공격과 방어에 대한 논의는 위험할 정도로 편협합니다. 지배적인 서사는 **“prompt injection”**에 초점을 맞추고 있는데, 이는 악의적인 지시를 LLM 입력에 삽입하는 일련의 기술을 의미합니다. 이 용어는 단순하고 단일한 취약점처럼 보이게 하여 보다 복잡하고 위험한 현실을 가립니다.

LLM 기반 시스템에 대한 공격은 **“promptware”**라 명명한 별개의 악성코드 실행 메커니즘으로 진화했습니다. 새로운 논문에서 우리는 정책 입안자와 보안 실무자에게 급증하는 AI 위협 환경을 다루기 위한 공통 어휘와 프레임워크를 제공하고자 **일곱 단계 “promptware kill chain”**을 제안합니다.

1. 초기 접근

악성 페이로드가 먼저 AI 시스템에 들어갑니다. 이는 다음과 같은 방식으로 발생할 수 있습니다:

  • 직접적으로 – 공격자가 LLM 애플리케이션에 악성 프롬프트를 입력합니다.
  • 간접적으로 – 적이 LLM이 추론 시에 가져오는 콘텐츠(예: 웹 페이지, 이메일, 공유 문서 등)에 악성 지시를 삽입합니다.

LLM이 멀티모달(이미지, 오디오 등 처리)로 발전함에 따라 이 공격 경로는 더욱 확대됩니다; 악성 지시가 이미지나 오디오 파일 내부에 숨겨져 비전‑언어 모델에 의해 처리되기를 기다릴 수 있습니다.

왜 중요한가

전통적인 컴퓨팅 시스템이 실행 가능한 코드와 사용자 데이터를 구분하는 것과 달리, LLM은 모든 입력—시스템 명령, 사용자 이메일, 가져온 문서—을 단일하고 구분되지 않은 토큰 스트림으로 취급합니다. 신뢰할 수 있는 지시와 신뢰할 수 없는 데이터를 구분하는 아키텍처적 경계가 없기 때문에, 겉보기에 무해한 문서도 시스템 명령과 동일한 권한으로 처리될 수 있습니다.

2. 권한 상승 (탈옥)

악의적인 명령이 포함된 후, 공격자는 OpenAI 또는 Google과 같은 공급업체가 모델에 내장한 안전 교육 및 정책 가드레일을 우회합니다. 기술에는 다음이 포함됩니다:

  • 규칙을 무시하는 페르소나를 모델이 채택하도록 설득하는 사회공학식 프롬프트.
  • 프롬프트나 데이터에 삽입된 정교한 적대적 접미사로, 모델이 일반적으로 거부할 행동을 수행하도록 속이는 경우.

이는 표준 사용자 계정에서 관리자 권한으로 상승하는 고전적인 권한 상승과 유사하며, 모델의 전체 기능을 악의적인 용도로 활용할 수 있게 합니다.

3. Reconnaissance

권한이 상승된 상태에서 공격자는 LLM을 조작하여 정보를 드러내게 하고, 이를 통해 자산, 연결된 서비스 및 기능에 대한 정보를 얻습니다. 전통적인 악성코드와 달리—정찰이 일반적으로 초기 접근에 앞서 이루어지는 경우—프롬프트웨어 정찰은 초기 접근 및 탈옥이 성공한 이후에 발생합니다. 그 효과는 전적으로 피해 모델이 자신의 컨텍스트를 추론할 수 있는 능력에 의존하며, 그 추론을 공격자의 이익으로 전환합니다.

4. 지속성

일시적인 공격은 한 번의 상호작용 후 사라지는 성가심에 불과하지만, 지속적인 공격은 LLM 애플리케이션을 영구적으로 손상시킵니다. 지속성 메커니즘에는 다음이 포함됩니다:

  • AI 에이전트의 long‑term memory에 악성 콘텐츠를 삽입하는 것.
  • 에이전트가 의존하는 데이터베이스를 오염시키는 것.
  • 사용자의 이메일 아카이브에 감염되는 “웜”을 배포하여 AI가 과거 이메일을 요약할 때마다 악성 코드가 다시 실행되도록 하는 것.

5. Command‑and‑Control (C2)

확립된 지속성을 활용하여 공격자는 추론 중에 인터넷으로부터 동적으로 명령을 가져올 수 있다. 킬 체인을 진행하는 데 반드시 필요한 것은 아니지만, 이 단계는 프롬프트웨어를 고정된 목표를 가진 정적 위협에서 제어 가능한 트로이 목마로 변환시켜 행동을 즉시 수정할 수 있게 만든다.

6. Lateral Movement

공격이 초기 피해자에서 다른 사용자, 장치 또는 시스템으로 퍼집니다. 예시:

  • 감염된 이메일 도우미가 악성 페이로드를 모든 연락처에게 전달하여 컴퓨터 바이러스처럼 확산합니다.
  • 손상된 캘린더 초대에서 스마트‑홈 장치를 제어하거나 웹 브라우저에서 데이터를 탈취하는 방향 전환(pivoting)입니다.

AI 에이전트를 유용하게 만드는 상호 연결성은 악성코드 전파를 위한 고속도로를 만들며, 이는 연쇄적인 실패를 초래할 수 있습니다.

7. Actions on Objective

최종 단계에서는 공격자의 구체적인 목표가 달성됩니다. 이는 챗봇에게 공격적인 발언을 시키는 수준을 훨씬 넘어섭니다. 가능한 목표는 다음과 같습니다:

  • 데이터 탈취 또는 금융 사기 (예: AI 에이전트를 조작해 자동차를 $1에 판매하거나 암호화폐를 공격자의 지갑으로 이체하도록 함).
  • 손상된 IoT 또는 스마트 홈 장치를 통한 물리적 세계 영향.
  • 코드 실행 — 코딩 능력을 가진 에이전트를 속여 임의의 코드를 실행하게 함으로써, 공격자는 기본 시스템에 대한 완전한 제어권을 얻을 수 있습니다.

결과에 따라 프롬프트웨어가 실행하는 악성코드 유형이 결정됩니다 (정보 탈취자, 스파이웨어, 암호화폐 탈취자 등).

Summary

프롬프트웨어 킬 체인은 악의적인 행위자가 LLM을 무기화하는 방식을 이해하기 위한 포괄적인 7단계 모델을 제공합니다. 초기 접근부터 목표 달성에 이르는 각 단계를 인식함으로써 보안 전문가와 정책 입안자는 목표에 맞는 방어책을 개발하고 새롭게 떠오르는 AI 기반 위협 환경을 완화할 수 있습니다.

개요

프롬프트 인젝션 공격은 전통적인 악성코드 킬 체인과 유사한 정교한 다단계 캠페인으로 진화했습니다. 프롬프트 기반 악용을 “프롬프트웨어” 로 간주함으로써 초기 접근부터 최종 영향까지의 진행 과정을 매핑하고, 후반 단계에서 체인을 차단하는 방어 조치를 설계할 수 있습니다.

Example 1: Invitation Is All You Need

킬 체인 단계설명
초기 접근악성 프롬프트가 Google 캘린더 초대장의 제목에 삽입됩니다.
지속성프롬프트가 캘린더 아티팩트 내부에 존재하기 때문에 사용자 작업 공간의 장기 메모리에 남아 있습니다.
횡방향 이동프롬프트가 Google Assistant에게 Zoom 애플리케이션을 실행하도록 지시합니다.
영향조수는 단순히 다가오는 회의에 대해 물어본 무심코 있는 사용자의 영상을 은밀하게 실시간 스트리밍합니다.
C2 / 정찰이 공격에서는 시연되지 않음.

핵심 요점: 일상적인 협업 도구에 악성 프롬프트를 삽입하면 공격자가 지속적인 거점을 확보하고 전통적인 명령·제어(C2) 인프라 없이 은밀한 데이터 유출을 가능하게 할 수 있습니다.

예시 2: AI 웜이 등장한다

Kill‑Chain StageDescription
Initial Access피해자에게 전송된 이메일에 프롬프트가 삽입됩니다.
Persistence프롬프트가 사용자 이메일 작업 공간의 장기 메모리에 지속됩니다.
Privilege

특권

0 조회
Back to Blog

관련 글

더 보기 »

LLM에 대한 사이드채널 공격

Remote Timing Attacks on Efficient Language Model Inference 초록: 언어 모델을 확장함에 따라 그 능력이 크게 향상되었습니다. 하지만 더 큰 모델…