[논문] DirectAudioEdit: 확산 예측 대비를 통한 텍스트 기반 역전 없는 오디오 편집

발행: 5일 전 (2026년 6월 6일 AM 12:04 GMT+9)

2 분 소요

원문: arXiv

출처: arXiv - 2606.07356v1

개요

텍스트 기반 오디오 편집은 언어로 지정된 음향 내용을 수정하면서 편집과 무관한 원본 요소는 보존하는 것을 목표로 합니다. 기존의 학습 없이 수행되는 방법들은 주로 역전(inversion) 기반 편집에 의존합니다. 역전이 없는 편집은 계산 비용과 재구성 오류를 줄여 매력적이지만, 오디오 편집 분야에서는 아직 충분히 탐구되지 않았습니다. 핵심 과제는 확산 디노이징 역학을 통해 소스에서 타깃으로 가는 편집 경로를 구축하는 것입니다. 본 논문에서는 학습 없이, 역전 없이 오디오 편집을 수행하는 최초의 시도인 DirectAudioEdit를 소개합니다. 두 가지 백본을 사용한 음악 및 이벤트 수준 벤치마크 실험 결과, DirectAudioEdit는 DDPM 역전에 비해 매크로 평균 FAD와 KL을 각각 15.9%와 15.8% 감소시키면서 편집 속도를 최대 64.5% 가속시켰습니다.

주요 기여

cs.SD
cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.SD 분야의 발전에 기여합니다.

저자

Zhengkun Ge
Xiaoqian Liu
Haoran Zhang
Yuan Ge
Junxiang Zhang
Zhengtao Yu
Jingbo Zhu
Tong Xiao

논문 정보

arXiv ID: 2606.07356v1
Categories: cs.SD, cs.CL
Published: 2026년 6월 5일
PDF: PDF 다운로드

[논문] DirectAudioEdit: 확산 예측 대비를 통한 텍스트 기반 역전 없는 오디오 편집

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] 에이전토피아: 에이전트 사회에서의 장기 생활 시뮬레이션 및 학습

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 언임베딩 매트릭스가 텍스트 임베딩의 비밀 렌즈입니다