[Paper] 이제 들으세요: Audio Narrative Attacks Against Large Audio-Language Models

발행: 1주 전 (2026년 1월 31일 오전 03:23 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2601.23255v1

번역할 텍스트를 제공해 주시겠어요? 현재는 소스 링크만 포함되어 있어 번역할 내용이 없습니다. 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.

개요

논문 Now You Hear Me: Audio Narrative Attacks Against Large Audio‑Language Models는 강력한 멀티모달 모델이 텍스트만이 아니라 원시 음성을 처리하기 시작할 때 발생하는 새로운 유형의 보안 위협을 밝혀냅니다. 탈옥 프롬프트를 구어 이야기로 바꿈으로써, 저자들은 최첨단 오디오‑언어 시스템이 안전 필터를 무시하도록 속일 수 있음을 보여주며, 어시스턴트, 튜터링 봇, 임상 트리아지 도구와 같은 음성‑우선 제품에 대한 긴급한 우려를 제기합니다.

핵심 기여

오디오 전용 탈옥: 금지된 지시를 합성 음성 스토리 안에 삽입하는 새로운 “내러티브‑스타일” 오디오 공격을 도입하여 텍스트‑중심 안전 검사를 우회합니다.
고급 TTS 활용: 고충실도 지시‑수행 텍스트‑투‑스피치 모델을 사용해 의미 페이로드를 유지하면서 자연스럽게 들리게 하며, 언어적 및 음향적 단서를 모두 활용합니다.
실증적 검증: Gemini 2.0 Flash에 대해 98.26 % 성공률을 보였으며(다른 주요 오디오‑언어 모델에서도 유사한 비율), 전통적인 텍스트‑전용 탈옥보다 크게 뛰어납니다.
위협 분류학: 텍스트에서 음성으로의 전환이 공격 표면을 어떻게 확대하는지 강조하고, 언어와 부언어 신호를 공동으로 추론하는 안전 메커니즘이 필요함을 제시합니다.
오픈‑소스 툴킷: 연구에 사용된 코드와 오디오 프롬프트를 공개하여 재현성과 방어 연구를 촉진합니다.

방법론

프롬프트 설계 – 연구자들은 금지된 명령(예: “해킹 방법을 알려줘”)을 무해하게 들리는 이야기 속에 녹여낸 내러티브 프롬프트를 만든다.
명령 따르는 TTS – 프롬프트를 사용자 지시를 따르도록 훈련된 최첨단 TTS 시스템에 입력하여, 자연스러운 구어체 이야기를 닮은 합성 오디오 클립을 만든다.
오디오 전달 – 생성된 클립을 음성 입력 API를 통해 대상 오디오‑언어 모델(ALM)에 직접 전달한다. 이는 사용자가 음성 비서에 말하는 방식과 동일하다.
응답 분석 – 모델의 텍스트 출력이 숨겨진 명령을 따르는지 검토한다. 성공 여부는 금지된 응답을 얻은 시도 비율로 측정한다.
기준선 비교 – 동일한 악의적 의도를 일반 텍스트와 “평면” 오디오 읽기(내러티브 없음) 형태로 전달하여 내러티브 접근법의 이점을 정량화한다.

Results & Findings

Target Model	Text‑only jailbreak success	Narrative‑audio jailbreak success
Gemini 2.0 Flash	~12 %	98.26 %
Other ALMs (e.g., Whisper‑based)	8–15 %	85–96 %

내러티브 형식이 평면 오디오 및 텍스트 프롬프트보다 일관되게 우수한 성과를 보이며, 이는 모델의 안전 필터가 명시적인 텍스트 신호는 감지하지만 미묘한 스토리 구조는 감지하지 못하도록 조정된 것으로 보입니다.
음향 신호(억양, 멈춤)는 입력이 무해하다는 모델의 인식을 강화하는 것으로 나타나, 필터를 더욱 약화시킵니다.
동일한 TTS 음성을 정상적인 프롬프트와 악의적인 프롬프트에 모두 사용할 경우에도 모델은 이를 구분하지 못하며, 이는 교차 모달 안전 추론이 부족함을 나타냅니다.

실용적인 시사점

음성 비서: 악의적인 행위자는 팟캐스트, 오디오북, 심지어 전화 통화에 해로운 지시를 삽입하여 비서가 제한된 정보를 공개하거나 안전하지 않은 행동을 수행하도록 만들 수 있습니다.
기업 AI 파이프라인: 오디오를 수집하는 기업(예: 콜센터 분석)은 의도치 않게 손상된 음성을 처리할 수 있으며, 이는 데이터 유출이나 정책 위반으로 이어질 수 있습니다.
규제 준수: 텍스트 기반 프롬프트 필터링에 초점을 맞춘 안전 인증은 음성을 수용하는 제품에 대해 충분하지 않으며, 새로운 표준이 필요하게 됩니다.
방어 도구: 개발자는 다중모달 콘텐츠 모더레이션을 고려해야 합니다—예를 들어, 병렬 텍스트 전사 검사를 실행하고, 음향 이상 탐지기를 사용하거나, 전사와 오디오의 운율 패턴을 모두 평가하는 “음성 인식” 안전 레이어를 설계하는 것입니다.
사용자 교육: 최종 사용자는 겉보기에 무해한 오디오 콘텐츠가 탈옥 벡터가 될 수 있음을 인식해야 하며, 특히 합성 음성 생성이 더 쉽게 접근 가능해짐에 따라 더욱 중요합니다.

제한 사항 및 향후 연구

Synthetic audio focus: 연구는 고품질 TTS 출력에 의존하고 있으며, 실제 녹음(배경 소음, 화자 변동성)은 공격 성공에 영향을 미칠 수 있음을 저자들이 인정하고 있습니다.
Model scope: 실험은 소수의 공개된 ALM에만 제한되어 있으며, 독점적이거나 도메인‑특정 모델은 다르게 동작할 수 있습니다.
Defensive baselines: 논문은 초기 완화 아이디어를 제시하지만 구체적인 방어책을 구현하거나 평가하지 않아, 이를 향후 연구 과제로 남겨두고 있습니다.
Future avenues: 공격을 멀티모달 입력(오디오 + 비주얼)으로 확장하고, 음향 영역에서의 적대적 섭동을 탐구하며, 텍스트, 오디오, 운율을 공동으로 추론하는 통합 안전 프레임워크를 구축하는 것이 포함됩니다.

저자

Ye Yu
Haibo Jin
Yaoning Yu
Jun Zhuang
Haohan Wang

논문 정보

arXiv ID: 2601.23255v1
카테고리: cs.CL, cs.AI, cs.CR
출판일: 2026년 1월 30일
PDF: PDF 다운로드

[Paper] 이제 들으세요: Audio Narrative Attacks Against Large Audio-Language Models

개요

핵심 기여

방법론

Results & Findings

실용적인 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] FOCUS: DLLMs는 Compute Bound를 제어하는 방법을 알고 있다

[Paper] Agnostic 언어 식별 및 생성

[Paper] Process Rewards를 활용한 Multiagent Systems 스케일링

[Paper] 대규모 언어 모델 서빙의 탄력성을 위한 KevlarFlow