[Paper] OpenVE-3M: 대규모 고품질 데이터셋 for Instruction-Guided Video Editing
Source: arXiv - 2512.07826v1
개요
이 논문은 명령어 기반 비디오 편집에 특화된 최초의 오픈‑소스, 대규모, 고품질 데이터셋 OpenVE-3M을 소개한다. 전역 스타일 변경부터 정밀한 객체 삽입까지 다양한 편집 유형을 포괄함으로써, 비디오‑편집 AI 모델의 발전을 저해해 온 중요한 격차를 메운다. 저자들은 또한 벤치마크(OpenVE‑Bench)와 50억 파라미터 모델(OpenVE‑Edit)을 공개하여 이 벤치마크에서 새로운 성능 기록을 세웠다.
주요 기여
- OpenVE‑3M 데이터셋: 3 백만 개의 비디오‑편집 쌍과 인간이 읽을 수 있는 편집 지시문을 포함하며, 8개의 서로 다른 편집 카테고리(공간 정렬 및 비정렬 모두)를 아우른다.
- 엄격한 데이터 파이프라인: 자동 생성, 다단계 품질 필터링, 인간 검증을 통해 높은 시각적 충실도와 지시문 적합성을 보장한다.
- OpenVE‑Bench: 431개의 비디오‑편집 쌍으로 구성된 큐레이션된 벤치마크이며, 시간 일관성, 편집 정확도, 지각 품질이라는 세 가지 평가 지표를 제공한다. 이 지표들은 인간 판단과 강하게 상관관계를 가진다.
- OpenVE‑Edit 모델: OpenVE‑3M으로 학습된 5 B 파라미터 명령어 기반 비디오 편집 모델로, 최첨단 결과를 달성하고 기존 오픈‑소스 14 B 베이스라인을 능가한다.
- 오픈‑소스 공개: 모든 데이터, 코드, 모델 가중치를 공개하여 재현성 및 커뮤니티 기반 확장을 장려한다.
방법론
-
데이터 생성
- 로열티‑프리 고해상도 비디오 클립 풀에서 시작한다.
- 색 보정, 배경 교체, 객체 삽입/제거, 자막 편집 등 결정론적 비디오 조작 연산자를 적용한다.
- 각 조작에 대해 원하는 편집을 설명하는 자연어 지시문을 자동으로 합성한다.
-
품질 필터링
- 자동 검사: 사전 학습된 인식 모델을 사용해 시각적 결함, 시간적 진동, 오디오‑비디오 싱크 불일치를 감지한다.
- 인간 검토: 소규모 팀이 무작위 샘플을 검증하여 지시문‑편집 정렬성을 확인하고 이상치를 제외한다.
-
벤치마크 구축 (OpenVE‑Bench)
- 모든 편집 카테고리를 균형 있게 포함하는 부분집합을 샘플링한다.
- 각 비디오에 대해 시간 일관성, 편집 정확도, 지각 품질 세 가지 인간 평점을 획득한다.
- 이러한 평점에 맞춰 자동 평가용 복합 지표를 도출한다.
-
모델 학습 (OpenVE‑Edit)
- 아키텍처: 원본 비디오와 텍스트 지시문을 모두 조건으로 하는 확산 기반 비디오 생성기.
- 학습 체계: 5 B 파라미터, 64 대의 A100 GPU에서 약 2주간 혼합 정밀도 학습.
- 커리큘럼: 먼저 단순한 전역 편집을 학습하고, 점차 복잡한 로컬 및 비정렬 편집을 도입한다.
결과 및 발견
| 지표 (높을수록 좋음) | OpenVE‑Edit (5 B) | 기존 오픈‑소스 14 B | 인간 상한 |
|---|---|---|---|
| 시간 일관성 (TC) | 0.84 | 0.78 | 0.92 |
| 편집 정확도 (EA) | 0.81 | 0.73 | 0.89 |
| 지각 품질 (PQ) | 0.86 | 0.80 | 0.94 |
- OpenVE‑Edit은 모든 세 지표에서 더 큰 14 B 베이스라인을 능가하며, 데이터 품질과 다양성이 단순히 모델 규모보다 더 큰 영향을 미칠 수 있음을 보여준다.
- 인간 평가 결과, 모델 출력이 인간 상한에 약 10 %에 불과한 차이로 근접함을 확인했으며, 5 B 모델에 비해 눈에 띄는 성과다.
- 소거 실험을 통해 각 편집 카테고리가 고유하게 기여함을 확인했으며, 비공간 정렬 편집을 제외하면 전체 성능이 약 6 % 감소한다.
실용적 함의
- 비디오 효과의 빠른 프로토타이핑: 개발자는 OpenVE‑Edit을 콘텐츠 제작 파이프라인에 통합해 텍스트 명령만으로 스타일 전송, 배경 교체, 자막 업데이트 등을 자동 적용할 수 있다.
- 대규모 비디오 개인화: 마케팅 플랫폼은 브랜드 색상 팔레트와 같은 맞춤형 비디오 광고를 수천 개씩 자동 생성해 수작업 편집 없이도 활용 가능하다.
- 향상된 비디오 편집 도구: 기존 데스크톱·클라우드 기반 편집기에 “자연어 편집” 버튼을 노출시켜 비전문가도 손쉽게 편집할 수 있다.
- 연구 가속화: OpenVE‑Bench는 표준화된 평가 기준을 제공해 향후 명령어 기반 비디오 모델의 공정한 비교를 가능하게 한다.
- 비용 효율적인 배포: 최첨단 성능을 5 B 모델로 달성했기 때문에 추론은 단일 고성능 GPU 혹은 최적화된 추론 하드웨어에서도 실행 가능해 SaaS 서비스 비용을 절감한다.
제한점 및 향후 연구
- 도메인 편향: 소스 비디오는 주로 로열티‑프리 클립이므로, 고도로 영화 같은 영상이나 흔들린 스마트폰 촬영 등에서는 성능이 저하될 수 있다.
- 지시문 길이: 데이터셋에 긴 프롬프트가 포함되어 있지만, 매우 복잡한 다단계 지시문은 충분히 대표되지 않는다.
- 오디오 처리: 현재 파이프라인은 시각적 편집에 초점을 맞추고 있어, 음성 교체와 같은 동기화된 오디오 변환은 다루지 않는다.
- 실시간 편집: 추론 지연이 짧은 클립당 수 초 수준이므로, 진정한 실시간 편집은 아직 해결되지 않은 과제이다.
향후 연구에서는 다양한 촬영 환경을 포괄하도록 데이터셋을 확장하고, 멀티모달(오디오‑비디오) 편집 지시문을 도입하며, 품질을 유지하면서 지연 시간을 더욱 줄이기 위한 모델 증류 기법을 탐색할 수 있다.
저자
- Haoyang He
- Jie Wang
- Jiangning Zhang
- Zhucun Xue
- Xingyuan Bu
- Qiangpeng Yang
- Shilei Wen
- Lei Xie
논문 정보
- arXiv ID: 2512.07826v1
- 분류: cs.CV
- 발표일: 2025년 12월 8일
- PDF: Download PDF