[Paper] MMAE: 대규모 다중 작업 오디오 편집 벤치마크

발행: 5일 전 (2026년 6월 5일 PM 09:52 GMT+9)

5 분 소요

원문: arXiv

출처: arXiv - 2606.07229v1

개요

우리는 MMAE, Massive Multitask Audio Editing benchmark를 소개한다. 이는 일반 목적의 명령 기반 오디오 편집을 위한 최초의 포괄적인 평가 테스트베드이다. 지능형 창작으로의 전환에 힘입어, 인터랙티브 편집은 이미지용 Nano‑banana 2, 비디오용 Gemini‑Omni와 같은 모델이 선도하던 시각 분야에서 빠르게 확장되어 오디오 영역까지 진출하고 있다. 그러나 현재 평가 인프라는 심각하게 뒤처져 있으며, 매우 파편화되어 특정 하위 도메인이나 기본 작업에만 국한되어 있다. 기존 벤치마크가 범위가 제한적인 반면, MMAE는 실제 상황을 아우르는 넓은 스펙트럼을 제공한다. 여기에는 사운드, 음성, 음악 및 이들의 혼합을 포함한 7가지 서로 다른 오디오 모달리티가 포함된다. 또한 우리는 작업 복잡도 6단계(기본 수정부터 다중 홉 추론·다중 라운드 편집까지), 세분화 수준 2단계, 그리고 8가지 고유 연산 유형을 아우르는 포괄적인 분류 체계를 구축하였다. 인간‑에이전트 협업을 통해 정교히 선별된 MMAE는 2,000개의 고충실도 샘플과 선구적인 루브릭 기반 평가 프레임워크를 포함한다. 자유형 작업을 17,741개의 검증 가능한 기준으로 분해함으로써, 이 견고한 루브릭 기반 패러다임은 명령 수행과 컨텍스트 일관성을 다차원적으로 정밀 평가할 수 있게 한다. 선도 모델들에 대한 광범위한 평가 결과, 현재 시스템은 신뢰할 수 있는 편집을 달성하는 데 아직 크게 부족함을 보여준다. 특히 정확 일치율(Exact Match Rate, EMR)은 복합·혼합 모달리티 작업에서 절대 0%에 수렴하며, 전반적으로 5% 이하에 머물러 정밀 실행 및 구조적 견고성에 중대한 병목이 존재함을 드러낸다. 우리는 MMAE가 지능형 창작 커뮤니티의 미래 발전을 촉진하는 촉매가 되어, 명확한 진단 로드맵을 제공하고 차세대 오디오 편집 시스템을 위한 표준화되고 지속 가능한 평가 패러다임을 정립하기를 기대한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

cs.SD
cs.CL
cs.MM

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.SD 분야의 발전에 기여한다.

저자

Ziyang Ma
Ruiqi Yan
Ruiyang Xu
Jie Fang
Zhikang Niu
Yi-Wen Chao
Wenming Tu
Tianrui Wang
Auden
Qi Chen
Wenxi Chen
Jiaying Chi
Yanru Huo
Zixuan Jiang
Xiquan Li
Yalin Li
Junxi Liu
Minghao Liu
Binghao Qiang
Yijia Shan
Zheshu Song
Tian Tan
Zixiang Wang
Zeyu Xie
Zhifei Xie
Xiaoyu Xing
Qixiang Xu
Chen Yang
Guanrou Yang
Shan Yang
Yifan Yang
Steve Yves
Haotian Zhang
Haina Zhu
Kai Yu
Liefeng Bo
Eng‑Siong Chng
Xie Chen

논문 정보

arXiv ID: 2606.07229v1
분류: cs.SD, cs.CL, cs.MM
발표일: 2026년 6월 5일
PDF: PDF 다운로드

[Paper] MMAE: 대규모 다중 작업 오디오 편집 벤치마크

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] 에이전토피아: 에이전트 사회에서의 장기 생활 시뮬레이션 및 학습

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 언임베딩 매트릭스가 텍스트 임베딩의 비밀 렌즈입니다