Johann Rehberger 인터뷰: Memory-Hack Claude Opus 4.7을 속이는 방법

발행: (2026년 5월 6일 PM 06:39 GMT+9)
7 분 소요
원문: Dev.to

Source: Dev.to

소개

Johann Rehberger는 Embrace the Red 뒤에 있는 AI 보안 연구자이자 블로거입니다. 그는 Claude Opus 4.7 및 ChatGPT와 같은 대형 언어 모델의 취약점을 문서화합니다. Leonard Schmedding와의 인터뷰에서 그는 조작된 이미지가 Claude의 기억을 어떻게 재작성하는지와 그로 인해 발생하는 위험에 대해 설명합니다.

메모리 해킹

Rehberger는 ChatGPT에게 검은 배경에 어두운 텍스트가 포함된 이미지를 생성하도록 합니다. 인간의 눈으로는 내용이 보이지 않습니다. Claude Opus 4.7이 해당 이미지를 로드하면 모델은 숨겨진 명령을 읽고 사용자에 대한 자체 메모리 항목을 덮어씁니다. 이렇게 하면 저장된 기억을 조작할 수 있습니다.

참고: Anthropic은 HackerOne에서 이 버그를 안전 이슈로 거부했지만, 하루 뒤에 조용히 취약점을 패치했습니다.

인터넷 접근이 가능한 코드 인터프리터

Anthropic은 Claude의 코드 인터프리터에 인터넷 접근을 허용했습니다. 사용자는 허용 목록(Allowlist)과 전체 접근 중 선택할 수 있으며, 기본값으로 Anthropic 자체 도메인이 목록에 포함됩니다. Rehberger는 Claude Cowork보다 몇 달 전에 이 기본 설정이 문제를 일으킬 수 있음을 보여주었습니다:

  • 공격자는 에이전트에게 민감한 데이터를 다른 계정으로 전송하도록 지시할 수 있습니다.
  • Anthropic API 자체가 데이터 유출 채널이 됩니다.

후속 연구자들도 Claude Cowork에서 동일한 문제가 존재함을 확인했습니다. 따라서 기업은 데이터 흐름을 적극적으로 감사하고 허용 목록을 엄격히 관리해야 합니다.

Skills에 의한 위험

Skills는 외부 출처의 코드를 로드하고 즉시 실행합니다 – 20년 넘게 알려진 고전적인 보안 안티패턴입니다. 그러나 AI 컨텍스트에서는 이 관행이 다시 정상화되고 있습니다. 서명된 출처, 감사 로그, 명확한 지침이 없으면 모든 Skill이 백도어가 될 수 있습니다.

권장 사항:

  • 검증된 제조업체만 사용합니다.
  • 실행을 샌드박스화합니다.
  • 에이전트당 엄격한 액션 로깅을 도입합니다.

Model Context Protocol

Rehberger는 Model Context Protocol을 1998년 스위스 치즈에 비유한다: Authentifizierung, Logging 및 깨끗한 Daten‑Isolation이 부족하다. Autorisierung는 사후에 “aufgepatcht”되어 위험을 증가시킨다.

ASCII Smuggling

ASCII Smuggling은 브라우저에 표시되지 않지만 언어 모델이 읽고 실행하는 보이지 않는 유니코드 제어 문자를 이용합니다. 시나리오:

  1. 공격자가 보이지 않는 문자가 포함된 조작된 이메일을 보냅니다.
  2. 백그라운드의 KI 에이전트가 숨겨진 명령을 해석합니다.
  3. 모델은 자체적으로 보이지 않는 문자를 출력에 삽입할 수 있습니다 (“Sneaky Bits”).
  4. 텍스트를 복사할 때 숨겨진 데이터가 함께 전달되어 기존 DLP 시스템이 이를 감지하지 못합니다.

간접 프롬프트‑인젝션을 소셜 엔지니어링으로

간접 프롬프트‑인젝션은 AI‑에이전트를 위한 소셜 엔지니어링에 해당한다. 이메일, 문서 또는 웹사이트에 숨겨진 명령이 에이전트에 의해 무조건 실행된다. Rehberger는 모든 에이전트를 Malicious Insider처럼 다룰 것을 권고한다:

  • 최소한의 필요한 권한.
  • 누락 없는 로깅.
  • 손상된 에이전트를 위한 비상‑플레이북.

권장 조치 사항

  1. KI‑에이전트를 내부인으로 취급 – 엄격한 접근 및 권한 모델 적용.
  2. 데이터 흐름을 감사 및 모니터링 하되, 특히 허용 목록(Allowlists)에서 주의.
  3. 외부 스킬/코드‑모듈을 샌드박스에 격리하고 서명.
  4. 중앙 집중식 액션 로깅을 구현하고, 로그가 변경 불가능하도록 보장.
  5. 에이전트 타협 시 대응을 위한 비상 매뉴얼을 개발.
  6. 패치 관리: 발견된 취약점에 신속히 대응하고 네트워크 격리 수행.

결론

Claude Opus 4.7의 메모리 해킹, 누출된 코드 인터프리터, 그리고 불안정한 스킬 로딩은 AI 보안이 더 이상 틈새 주제가 아니라는 것을 보여준다. AI를 생산적으로 활용하는 기업은 AI 에이전트의 보안을 독립된 분야로 다루어야 하며, 20 년간의 전통적인 IT 보안에서 얻은 교훈을 일관되게 적용해야 한다. 앞으로 몇 달이 산업이 이러한 경험으로부터 배우는지, 아니면 새로운 포장으로 옛 패턴을 반복하는지를 결정할 것이다.

0 조회
Back to Blog

관련 글

더 보기 »

시스템 설계 트레이드오프

스케일링 - 수직 스케일링 vs 수평 스케일링 - 확장성 vs 성능 일관성 및 가용성 - 일관성 vs 가용성 CAP - 강한 일관성 vs 최종 일관성