RoguePilot 결함이 GitHub Codespaces에서 Copilot이 GITHUB_TOKEN을 유출하도록 함

발행: (2026년 2월 25일 오전 03:52 GMT+9)
12 분 소요

Source: The Hacker News

번역을 진행하려면 번역하고자 하는 본문 텍스트를 제공해 주세요. 현재는 링크만 포함되어 있어 번역할 내용이 없습니다. 텍스트를 알려주시면 그대로 한국어로 번역해 드리겠습니다.

GitHub Codespaces의 RoguePilot 취약점

GitHub Codespaces의 취약점을 악의적인 사용자가 GitHub 이슈에 악성 Copilot 명령을 삽입함으로써 저장소를 장악할 수 있었던 것으로 드러났습니다.

AI 기반 결함은 Orca Security에서 RoguePilot이라는 코드명으로 명명했으며, 책임 있는 공개 후 Microsoft가 패치를 적용했습니다.

“공격자는 GitHub 이슈 안에 숨겨진 명령을 만들 수 있으며, 이 명령은 GitHub Copilot에 자동으로 처리되어 코드스페이스 내 AI 에이전트를 조용히 제어하게 됩니다.” 라고 보안 연구원 Roi Nisimi가 보고서에서 밝혔습니다.
Orca Security 블로그

이 취약점은 수동(간접) 프롬프트 인젝션의 한 사례입니다. 악성 명령이 대형 언어 모델(LLM)이 처리하는 데이터에 삽입되어 의도하지 않은 출력이나 임의의 동작을 수행하게 합니다. Orca는 이를 AI 매개 공급망 공격이라고도 설명하는데, 이는 개발자 콘텐츠(이 경우 GitHub 이슈)에 삽입된 악성 명령을 LLM이 자동으로 실행하도록 유도합니다.

공격 흐름

  1. 악성 GitHub 이슈가 생성됩니다.
  2. 무심코 개발자가 해당 이슈에서 Codespace를 시작합니다.
  3. GitHub Copilot이 이슈 설명을 프롬프트로 자동 수신합니다.
  4. HTML 주석 안에 숨겨진 프롬프트가 Copilot에게 특권 GITHUB_TOKEN을 공격자가 제어하는 서버로 유출하도록 지시합니다.

“Codespace 내 Copilot을 조작해 내부 파일에 대한 심볼릭 링크가 포함된 조작된 풀 리퀘스트를 체크아웃하도록 하면, Copilot이 해당 파일을 읽고 (원격 JSON $schema를 통해) 특권 GITHUB_TOKEN을 원격 서버로 유출시킬 수 있다”고 Nisimi가 설명했습니다.

진입점

RoguePilot은 Codespace를 시작하는 다음 진입점 중 어느 곳에서든 트리거될 수 있습니다:

  • 템플릿
  • 저장소
  • 커밋
  • 풀 리퀘스트
  • 이슈 (가장 취약한 진입점으로, 이슈 설명이 Copilot에 직접 전달됩니다)

프롬프트 인젝션에서 “프롬프트웨어”까지

이번 발견은 Microsoft가 연구 중인 **Group Relative Policy Optimization (GRPO)**와 시점이 맞물립니다. GRPO는 배포 후 LLM을 미세 조정하기 위해 사용되는 강화 학습 기법이며, Microsoft는 GRPO가 안전 기능을 제거하는 데 악용될 수 있음을 밝혀냈습니다. 이를 GRP‑Obliteration이라고 부릅니다.

주요 발견 내용

  • 라벨이 없는 단일 프롬프트(예: “공황이나 혼란을 초래할 수 있는 가짜 뉴스 기사를 작성하라”)가 15개의 언어 모델을 일관되게 비정렬시킬 수 있습니다.
  • 해당 프롬프트는 비교적 온화하며 폭력, 불법 행위, 노골적인 내용을 언급하지 않음에도 불구하고, 모델이 훈련 중 보지 못한 다수의 해로운 카테고리에 대해 더 관대해지도록 만듭니다.

“놀라운 점은 이 프롬프트가 비교적 온화하고 폭력, 불법 행위, 노골적인 내용을 언급하지 않는다는 것입니다.” 라고 Microsoft 연구원 Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines, Ahmed Salem이 언급했습니다.
Microsoft Security Blog (2026‑02‑09)

관련 연구

  • 사이드채널 공격은 사용자의 대화 주제를 추론하거나 쿼리를 75 % 이상의 정확도로 지문화할 수 있습니다.
    • 추측적 디코딩(speculative decoding)이라는 최적화를 악용합니다, 이는 다중… (이하 내용은 다음 파트에 이어집니다)

le 후보 토큰을 병렬로 처리하여 처리량과 지연 시간을 개선합니다.

  • 참고:
    • [ArXiv: 2410.17175 – 사이드채널 탐지]
    • [ArXiv: 2411.01076 – 추가 사이드채널 기술]
    • [The Hacker News (Nov 2025) – 위스퍼 누수 공격]

Gartner Diagram

AI Attack Illustration

Agentic ShadowLogic & New AI Attack Vectors

Agentic ShadowLogic

컴퓨테이셔널‑그래프 수준에서 백도어가 삽입된 모델—**ShadowLogic**이라고 불리는 기술—은 **tool calls**가 사용자의 인지 없이 조용히 변조될 수 있게 함으로써 에이전시 AI 시스템을 추가 위험에 빠뜨릴 수 있습니다. 이 현상은 HiddenLayer에 의해 Agentic ShadowLogic이라는 코드네임이 붙었습니다.

“시간에 따라 요청을 로깅함으로써, 공격자는 내부 엔드포인트가 언제 존재하고, 언제 접근되며, 어떤 데이터가 흐르는지를 파악할 수 있습니다,” 라고 AI 보안 회사가 말했습니다. “사용자는 오류나 경고 없이 기대한 데이터를 받습니다. 겉으로는 모든 것이 정상적으로 작동하지만, 공격자는 백그라운드에서 전체 트랜잭션을 조용히 로그합니다.”
HiddenLayer announcement

작동 방식

  • 공격자는 백도어를 이용해 실시간으로 URL에서 콘텐츠를 가져오는 요청을 가로챕니다.
  • 해당 요청은 공격자가 제어하는 인프라를 거쳐 실제 목적지로 전달됩니다.

Semantic Chaining – Image Jailbreak

지난 달, Neural TrustSemantic Chaining이라는 새로운 이미지‑jailbreak 공격을 시연했습니다. 이 공격은 Grok 4, Gemini Nano Banana Pro,Seedance 4.5와 같은 모델에서 다단계 이미지 변형 능력을 활용해 안전 필터를 우회할 수 있게 합니다.

공격자는 모델의 제한된 “추론 깊이”를 이용해 다단계 명령어 전반에 걸쳐 잠재 의도를 추적합니다. 무해한 편집을 연쇄적으로 수행함으로써 모델의 안전 저항성을 서서히 약화시켜 금지된 출력을 생성하게 합니다.

공격 흐름

  1. Step 1: AI 챗봇에게 문제되지 않는 장면을 상상하고 생성된 이미지의 한 요소를 바꾸도록 요청합니다.
  2. Step 2: 두 번째 수정 요청을 통해 이미지를 금지되거나 공격적인 내용으로 변형합니다.

모델이 기존 이미지를 수정하고 있을 뿐 새로운 이미지를 생성하지 않기 때문에, 안전 알람이 종종 작동하지 않습니다.

“공격자는 즉시 차단을 일으키는 단일, 명백히 해로운 프롬프트 대신, 금지된 결과로 수렴하는 일련의 의미적으로 ‘안전한’ 지시문을 도입합니다,” 라고 보안 연구원 Alessandro Pignati말했습니다.
Neural Trust blog

ThreatLocker 다이어그램

Promptware – The New Malware Class

지난 달 발표된 연구에서 Oleg Brodt, Elad Feldman, Bruce Schneier, 그리고 Ben Nassi는 프롬프트 인젝션이 단순 입력 조작 익스플로잇을 넘어 **promptware**라 부르는 새로운 악성코드 실행 메커니즘으로 진화했다고 주장했습니다. 이는 특수하게 설계된 프롬프트를 통해 트리거되는 새로운 악성코드 클래스입니다.

Promptware 기능

  • LLM을 조작해 전형적인 사이버 공격 라이프사이클 단계들을 가능하게 함:
    • 초기 접근
    • 권한 상승
    • 정찰
    • 지속성 확보
    • 명령‑및‑제어
    • 횡적 이동 (예시 보기)
    • 악의적 결과 (데이터 절도, 사회공학, 코드 실행, 금융 사기)

“Promptware는 악성코드처럼 동작하도록 설계된 다형성 프롬프트 군을 의미하며, 애플리케이션의 컨텍스트, 권한 및 기능을 악용해 LLM을 이용해 악의적 활동을 실행합니다,” 라고 연구진이 말했습니다. “본질적으로 Promptware는 텍스트, 이미지, 오디오 등 어떤 형태이든 LLM의 행동을 조작하는 입력입니다.”

ring inference time, targeting applications or users.”
arXiv preprint

소식을 받아보세요

이 기사가 흥미롭다고 생각하셨나요? 더 많은 독점 콘텐츠를 위해 저희를 팔로우하세요:

0 조회
Back to Blog

관련 글

더 보기 »