[논문] 참조 기반 다중 스피커 오디오 씬 생성
개요
기존 다중 스피커 대화 시스템은 구조적 감독을 통해 화자별 발화를 연결합니다: 턴별 태그, 다중 스트리밍 전사본, 또는 학습 가능한 스피커 임베딩입니다. 이러한 시스템들은 음성 전용 파이프라인 내에서 작동하며 실제 대화의 배경 소음과 같은 자연스러운 질감을 갖춘 청결한 음성 시퀀스만 생성합니다. 우리는 다른 접근법을 취합니다. 우리의 방법인 ScenA는 대규모 현장 데이터로 사전 훈련된 텍스트‑오디오 흐름 매칭 기반 모델을 직접 여러 참고 목소리와 전체 다중 스피커 오디오 장면을 설명하는 자유 형식 자연어 프롬프트에 조건부화합니다. 이러한 기초 모델을 활용함으로써 우리는 배경 소음, 방의 음향, 겹치는 대화, 그리고即興적인 파라언구적 사건과 같은 실제 환경에서 발생하는 자연스러운 비 스튜디오 오디오 특성을 물려받을 수 있습니다. 동시에 구조가 없는 턴별 제어 기능을 추가할 수 있습니다. 구체적으로, 참조 잠재는 모델 토큰 시퀀스에 연결되고, 경량 아이덴티티 인식 위치 인코딩으로 구별됩니다. 그러나 이 접근법에 대한 핵심적인 장애물을 발견했습니다: \textit{Reference Shortcut}. 표준 노이즈 일정 하에서 훈련될 때, 모델은 소음이 있는 목표와 음향 유사성을 이용하여 참조 대상을 식별하고 텍스트 프롬프트를 완전히 우회합니다. 우리는 고노이즈 편향 타이밍 분배를 사용하여 모델이 스피커 할당에 텍스트 프롬프트에만 의존하도록 강제했습니다.
주요 공헌
이 논문은 다음 분야의 연구를 제시합니다:
- cs.SD
- cs.AI
- cs.CV
방법론
자세한 방법については 전체 논문을 참고하십시오.
실제 적용 가능성
이 연구는 cs.SD의 발전을 기여합니다.
Authors
- Michael Finkelson
- Daniel Segal
- Eitan Richardson
- Shahar Armon
- Nani Goldring
- Poriya Panet
- Nir Zabari
- Benjamin Brazowski
- Or Patashnik
- Yoav HaCohen
Paper Information
- arXiv ID: 2606.19325v1
- 카테고리: cs.SD, cs.AI, cs.CV
- 발행일: 2026년 6월 17일
- PDF: Download PDF