[Paper] MMAE: 대규모 다중 작업 오디오 편집 벤치마크
개요
우리는 MMAE, Massive Multitask Audio Editing benchmark를 소개한다. 이는 일반 목적의 명령 기반 오디오 편집을 위한 최초의 포괄적인 평가 테스트베드이다. 지능형 창작으로의 전환에 힘입어, 인터랙티브 편집은 이미지용 Nano‑banana 2, 비디오용 Gemini‑Omni와 같은 모델이 선도하던 시각 분야에서 빠르게 확장되어 오디오 영역까지 진출하고 있다. 그러나 현재 평가 인프라는 심각하게 뒤처져 있으며, 매우 파편화되어 특정 하위 도메인이나 기본 작업에만 국한되어 있다. 기존 벤치마크가 범위가 제한적인 반면, MMAE는 실제 상황을 아우르는 넓은 스펙트럼을 제공한다. 여기에는 사운드, 음성, 음악 및 이들의 혼합을 포함한 7가지 서로 다른 오디오 모달리티가 포함된다. 또한 우리는 작업 복잡도 6단계(기본 수정부터 다중 홉 추론·다중 라운드 편집까지), 세분화 수준 2단계, 그리고 8가지 고유 연산 유형을 아우르는 포괄적인 분류 체계를 구축하였다. 인간‑에이전트 협업을 통해 정교히 선별된 MMAE는 2,000개의 고충실도 샘플과 선구적인 루브릭 기반 평가 프레임워크를 포함한다. 자유형 작업을 17,741개의 검증 가능한 기준으로 분해함으로써, 이 견고한 루브릭 기반 패러다임은 명령 수행과 컨텍스트 일관성을 다차원적으로 정밀 평가할 수 있게 한다. 선도 모델들에 대한 광범위한 평가 결과, 현재 시스템은 신뢰할 수 있는 편집을 달성하는 데 아직 크게 부족함을 보여준다. 특히 정확 일치율(Exact Match Rate, EMR)은 복합·혼합 모달리티 작업에서 절대 0%에 수렴하며, 전반적으로 5% 이하에 머물러 정밀 실행 및 구조적 견고성에 중대한 병목이 존재함을 드러낸다. 우리는 MMAE가 지능형 창작 커뮤니티의 미래 발전을 촉진하는 촉매가 되어, 명확한 진단 로드맵을 제공하고 차세대 오디오 편집 시스템을 위한 표준화되고 지속 가능한 평가 패러다임을 정립하기를 기대한다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.SD
- cs.CL
- cs.MM
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 함의
본 연구는 cs.SD 분야의 발전에 기여한다.
저자
- Ziyang Ma
- Ruiqi Yan
- Ruiyang Xu
- Jie Fang
- Zhikang Niu
- Yi-Wen Chao
- Wenming Tu
- Tianrui Wang
- Auden
- Qi Chen
- Wenxi Chen
- Jiaying Chi
- Yanru Huo
- Zixuan Jiang
- Xiquan Li
- Yalin Li
- Junxi Liu
- Minghao Liu
- Binghao Qiang
- Yijia Shan
- Zheshu Song
- Tian Tan
- Zixiang Wang
- Zeyu Xie
- Zhifei Xie
- Xiaoyu Xing
- Qixiang Xu
- Chen Yang
- Guanrou Yang
- Shan Yang
- Yifan Yang
- Steve Yves
- Haotian Zhang
- Haina Zhu
- Kai Yu
- Liefeng Bo
- Eng‑Siong Chng
- Xie Chen
논문 정보
- arXiv ID: 2606.07229v1
- 분류: cs.SD, cs.CL, cs.MM
- 발표일: 2026년 6월 5일
- PDF: PDF 다운로드