[논문] DirectAudioEdit: 확산 예측 대비를 통한 텍스트 기반 역전 없는 오디오 편집

발행: (2026년 6월 6일 AM 12:04 GMT+9)
2 분 소요
원문: arXiv

출처: arXiv - 2606.07356v1

개요

텍스트 기반 오디오 편집은 언어로 지정된 음향 내용을 수정하면서 편집과 무관한 원본 요소는 보존하는 것을 목표로 합니다. 기존의 학습 없이 수행되는 방법들은 주로 역전(inversion) 기반 편집에 의존합니다. 역전이 없는 편집은 계산 비용과 재구성 오류를 줄여 매력적이지만, 오디오 편집 분야에서는 아직 충분히 탐구되지 않았습니다. 핵심 과제는 확산 디노이징 역학을 통해 소스에서 타깃으로 가는 편집 경로를 구축하는 것입니다. 본 논문에서는 학습 없이, 역전 없이 오디오 편집을 수행하는 최초의 시도인 DirectAudioEdit를 소개합니다. 두 가지 백본을 사용한 음악 및 이벤트 수준 벤치마크 실험 결과, DirectAudioEdit는 DDPM 역전에 비해 매크로 평균 FAD와 KL을 각각 15.9%와 15.8% 감소시키면서 편집 속도를 최대 64.5% 가속시켰습니다.

주요 기여

  • cs.SD
  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.SD 분야의 발전에 기여합니다.

저자

  • Zhengkun Ge
  • Xiaoqian Liu
  • Haoran Zhang
  • Yuan Ge
  • Junxiang Zhang
  • Zhengtao Yu
  • Jingbo Zhu
  • Tong Xiao

논문 정보

  • arXiv ID: 2606.07356v1
  • Categories: cs.SD, cs.CL
  • Published: 2026년 6월 5일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »