프롬프트웨어 킬 체인
Source: Schneier on Security
소개
현대의 생성형 인공지능(AI) 대형 언어 모델(LLM)에 대한 공격은 실제 위협을 제기합니다. 그러나 이러한 공격과 방어에 대한 논의는 위험할 정도로 편협합니다. 지배적인 서사는 **“prompt injection”**에 초점을 맞추고 있는데, 이는 악의적인 지시를 LLM 입력에 삽입하는 일련의 기술을 의미합니다. 이 용어는 단순하고 단일한 취약점처럼 보이게 하여 보다 복잡하고 위험한 현실을 가립니다.
LLM 기반 시스템에 대한 공격은 **“promptware”**라 명명한 별개의 악성코드 실행 메커니즘으로 진화했습니다. 새로운 논문에서 우리는 정책 입안자와 보안 실무자에게 급증하는 AI 위협 환경을 다루기 위한 공통 어휘와 프레임워크를 제공하고자 **일곱 단계 “promptware kill chain”**을 제안합니다.
1. 초기 접근
악성 페이로드가 먼저 AI 시스템에 들어갑니다. 이는 다음과 같은 방식으로 발생할 수 있습니다:
- 직접적으로 – 공격자가 LLM 애플리케이션에 악성 프롬프트를 입력합니다.
- 간접적으로 – 적이 LLM이 추론 시에 가져오는 콘텐츠(예: 웹 페이지, 이메일, 공유 문서 등)에 악성 지시를 삽입합니다.
LLM이 멀티모달(이미지, 오디오 등 처리)로 발전함에 따라 이 공격 경로는 더욱 확대됩니다; 악성 지시가 이미지나 오디오 파일 내부에 숨겨져 비전‑언어 모델에 의해 처리되기를 기다릴 수 있습니다.
왜 중요한가
전통적인 컴퓨팅 시스템이 실행 가능한 코드와 사용자 데이터를 구분하는 것과 달리, LLM은 모든 입력—시스템 명령, 사용자 이메일, 가져온 문서—을 단일하고 구분되지 않은 토큰 스트림으로 취급합니다. 신뢰할 수 있는 지시와 신뢰할 수 없는 데이터를 구분하는 아키텍처적 경계가 없기 때문에, 겉보기에 무해한 문서도 시스템 명령과 동일한 권한으로 처리될 수 있습니다.
2. 권한 상승 (탈옥)
악의적인 명령이 포함된 후, 공격자는 OpenAI 또는 Google과 같은 공급업체가 모델에 내장한 안전 교육 및 정책 가드레일을 우회합니다. 기술에는 다음이 포함됩니다:
- 규칙을 무시하는 페르소나를 모델이 채택하도록 설득하는 사회공학식 프롬프트.
- 프롬프트나 데이터에 삽입된 정교한 적대적 접미사로, 모델이 일반적으로 거부할 행동을 수행하도록 속이는 경우.
이는 표준 사용자 계정에서 관리자 권한으로 상승하는 고전적인 권한 상승과 유사하며, 모델의 전체 기능을 악의적인 용도로 활용할 수 있게 합니다.
3. Reconnaissance
권한이 상승된 상태에서 공격자는 LLM을 조작하여 정보를 드러내게 하고, 이를 통해 자산, 연결된 서비스 및 기능에 대한 정보를 얻습니다. 전통적인 악성코드와 달리—정찰이 일반적으로 초기 접근에 앞서 이루어지는 경우—프롬프트웨어 정찰은 초기 접근 및 탈옥이 성공한 이후에 발생합니다. 그 효과는 전적으로 피해 모델이 자신의 컨텍스트를 추론할 수 있는 능력에 의존하며, 그 추론을 공격자의 이익으로 전환합니다.
4. 지속성
일시적인 공격은 한 번의 상호작용 후 사라지는 성가심에 불과하지만, 지속적인 공격은 LLM 애플리케이션을 영구적으로 손상시킵니다. 지속성 메커니즘에는 다음이 포함됩니다:
- AI 에이전트의 long‑term memory에 악성 콘텐츠를 삽입하는 것.
- 에이전트가 의존하는 데이터베이스를 오염시키는 것.
- 사용자의 이메일 아카이브에 감염되는 “웜”을 배포하여 AI가 과거 이메일을 요약할 때마다 악성 코드가 다시 실행되도록 하는 것.
5. Command‑and‑Control (C2)
확립된 지속성을 활용하여 공격자는 추론 중에 인터넷으로부터 동적으로 명령을 가져올 수 있다. 킬 체인을 진행하는 데 반드시 필요한 것은 아니지만, 이 단계는 프롬프트웨어를 고정된 목표를 가진 정적 위협에서 제어 가능한 트로이 목마로 변환시켜 행동을 즉시 수정할 수 있게 만든다.
6. Lateral Movement
공격이 초기 피해자에서 다른 사용자, 장치 또는 시스템으로 퍼집니다. 예시:
- 감염된 이메일 도우미가 악성 페이로드를 모든 연락처에게 전달하여 컴퓨터 바이러스처럼 확산합니다.
- 손상된 캘린더 초대에서 스마트‑홈 장치를 제어하거나 웹 브라우저에서 데이터를 탈취하는 방향 전환(pivoting)입니다.
AI 에이전트를 유용하게 만드는 상호 연결성은 악성코드 전파를 위한 고속도로를 만들며, 이는 연쇄적인 실패를 초래할 수 있습니다.
7. Actions on Objective
최종 단계에서는 공격자의 구체적인 목표가 달성됩니다. 이는 챗봇에게 공격적인 발언을 시키는 수준을 훨씬 넘어섭니다. 가능한 목표는 다음과 같습니다:
- 데이터 탈취 또는 금융 사기 (예: AI 에이전트를 조작해 자동차를 $1에 판매하거나 암호화폐를 공격자의 지갑으로 이체하도록 함).
- 손상된 IoT 또는 스마트 홈 장치를 통한 물리적 세계 영향.
- 코드 실행 — 코딩 능력을 가진 에이전트를 속여 임의의 코드를 실행하게 함으로써, 공격자는 기본 시스템에 대한 완전한 제어권을 얻을 수 있습니다.
결과에 따라 프롬프트웨어가 실행하는 악성코드 유형이 결정됩니다 (정보 탈취자, 스파이웨어, 암호화폐 탈취자 등).
Summary
프롬프트웨어 킬 체인은 악의적인 행위자가 LLM을 무기화하는 방식을 이해하기 위한 포괄적인 7단계 모델을 제공합니다. 초기 접근부터 목표 달성에 이르는 각 단계를 인식함으로써 보안 전문가와 정책 입안자는 목표에 맞는 방어책을 개발하고 새롭게 떠오르는 AI 기반 위협 환경을 완화할 수 있습니다.
개요
프롬프트 인젝션 공격은 전통적인 악성코드 킬 체인과 유사한 정교한 다단계 캠페인으로 진화했습니다. 프롬프트 기반 악용을 “프롬프트웨어” 로 간주함으로써 초기 접근부터 최종 영향까지의 진행 과정을 매핑하고, 후반 단계에서 체인을 차단하는 방어 조치를 설계할 수 있습니다.
Example 1: Invitation Is All You Need
| 킬 체인 단계 | 설명 |
|---|---|
| 초기 접근 | 악성 프롬프트가 Google 캘린더 초대장의 제목에 삽입됩니다. |
| 지속성 | 프롬프트가 캘린더 아티팩트 내부에 존재하기 때문에 사용자 작업 공간의 장기 메모리에 남아 있습니다. |
| 횡방향 이동 | 프롬프트가 Google Assistant에게 Zoom 애플리케이션을 실행하도록 지시합니다. |
| 영향 | 조수는 단순히 다가오는 회의에 대해 물어본 무심코 있는 사용자의 영상을 은밀하게 실시간 스트리밍합니다. |
| C2 / 정찰 | 이 공격에서는 시연되지 않음. |
핵심 요점: 일상적인 협업 도구에 악성 프롬프트를 삽입하면 공격자가 지속적인 거점을 확보하고 전통적인 명령·제어(C2) 인프라 없이 은밀한 데이터 유출을 가능하게 할 수 있습니다.
예시 2: AI 웜이 등장한다
| Kill‑Chain Stage | Description |
|---|---|
| Initial Access | 피해자에게 전송된 이메일에 프롬프트가 삽입됩니다. |
| Persistence | 프롬프트가 사용자 이메일 작업 공간의 장기 메모리에 지속됩니다. |
| Privilege |