[Paper] Action100M: 대규모 비디오 행동 데이터셋
Source: arXiv - 2601.10592v1
개요
이 논문은 Action100M을 소개한다. 이는 120만 개의 교육용 비디오(14년 이상의 영상)에서 자동으로 수집된 대규모 비디오‑액션 데이터셋이다. 약 1억 개의 시간적으로 구분된 세그먼트와 개방형 어휘 액션 라벨, 풍부하고 계층적인 캡션을 제공함으로써, 저자들은 연구 커뮤니티에 대규모 비디오 이해 모델을 훈련하고 평가하기 위한 “기초” 자원을 제공하고자 한다.
주요 기여
- 스케일‑우선 데이터셋: 일상 행동의 광범위한 스펙트럼을 포괄하는 약 1억 개의 주석이 달린 비디오 세그먼트로, 기존 비디오‑액션 코퍼스를 크게 능가합니다.
- 완전 자동화 파이프라인: 계층적 시간 분할(V‑JEPA 2), 다중 레벨 캡션 생성(Tree‑of‑Captions), 대규모 추론 모델(GPT‑OSS‑120B)을 Self‑Refine 루프와 결합하여 인간 라벨링 없이 고품질의 구조화된 주석을 생성합니다.
- 오픈‑보카뷸러리 감독: 행동 라벨과 캡션이 고정된 분류 체계에 제한되지 않아 모델이 자연어 설명으로부터 학습할 수 있습니다.
- 입증된 유용성: Action100M을 사용해 VL‑JEPA 비전‑언어 모델을 학습하면 일관된 성능 향상과 여러 하위 작업 행동 인식 벤치마크에서 강력한 제로샷 결과를 얻을 수 있습니다.
- 공개 릴리스: 데이터셋과 주석 파이프라인 코드를 커뮤니티에 공개하여 재현성을 장려하고 추가 스케일링 작업을 촉진합니다.
방법론
- 데이터 수집 – 요리, DIY, 피트니스 등 다양한 분야를 포괄하는 웹상의 공개 교육용 비디오 120만 개를 수집했습니다.
- 계층적 시간 분할 – V‑JEPA 2 임베딩(자기지도 비디오 인코더)을 사용해 비디오를 재귀적으로 일관된 하위 구간으로 나누어 트리 형태의 시간 구조를 생성합니다.
- Tree‑of‑Captions 생성 – 각 구간과 해당 구간의 상위 프레임에 대해 캡션 모델이 짧은 설명과 자세한 설명을 모두 생성하여 다중 레벨 “캡션 트리”를 형성합니다.
- 추론 및 구조화 – 120 억 파라미터 언어 모델(GPT‑OSS‑120B)이 원시 캡션을 입력받아 다중 라운드 Self‑Refine를 수행합니다: 캡션을 검증하고, 병합하며, 정보를 일관된 주석 스키마(동작 동사, 행위자, 짧은/긴 캡션)로 재구성합니다.
- 데이터셋 구성 – 최종 결과물은 시간적으로 위치가 지정된 비디오 클립 집합으로, 각각 구조화된 개방형 어휘 라벨과 자연어 캡션 계층을 갖습니다.
전체 파이프라인은 인간 개입 없이 실행되며, 수억 개의 예시로 확장하는 것이 가능합니다.
결과 및 발견
- 스케일링 이점 – Action100M에서 VL‑JEPA를 학습하면(소규모 데이터셋 대비) Kinetics‑400에서 top‑1 정확도가 약 4 % 상승하고 Something‑Else에서 약 5 % 상승하여, 더 많은 데이터가 시각‑언어 표현을 개선한다는 것을 확인한다.
- 제로샷 전이 – Action100M으로 사전 학습된 모델은 미보인 행동 벤치마크(e.g., HMDB‑51, UCF‑101)에서 파인튜닝 없이 최첨단 제로샷 성능을 달성하여 학습된 표현의 일반성을 보여준다.
- 주석 품질 – 인간이 직접 검증한 결과, 생성된 행동 라벨 및 캡션의 85 % 이상이 의미적으로 정확하고 시간적으로 정렬되어 있어, 완전 자동화된 과정에 비해 놀라운 수치이다.
- 소거 연구 – 파이프라인 구성 요소(예: Self‑Refine 단계 또는 계층적 세분화)를 제거하면 하위 작업 성능이 눈에 띄게 감소하여 각 단계의 중요성을 강조한다.
Practical Implications
- Better video AI for developers – Action100M에 사전 학습된 모델은 비디오 검색, 콘텐츠 모더레이션, 자동 튜토리얼 생성과 같은 특정 애플리케이션에 대해 훨씬 적은 라벨링된 예시만으로도 미세 조정할 수 있습니다.
- Open‑vocabulary action detection – 데이터셋이 고정된 라벨 집합에 제한되지 않기 때문에, 하위 시스템은 자연어로 설명된 새로운 행동을 인식할 수 있어 보다 유연한 사용자 주도 쿼리를 가능하게 합니다(예: “누군가가 달걀을 휘젓는 클립을 보여줘”).
- Reduced annotation cost – 이 파이프라인은 조직이 수동 라벨링 비용 없이 자체 도메인‑특화 비디오 코퍼스(예: 산업 안전 영상)를 생성할 수 있는 청사진을 제공합니다.
- Foundation for multimodal world models – 풍부한 캡션 계층 구조는 거친 수준과 세밀한 수준의 의미적 컨텍스트를 모두 제공하며, 이는 진행 중인 활동을 추론해야 하는 로봇공학 또는 AR/VR 시스템에서 활용될 수 있습니다.
제한 사항 및 향후 연구
- 도메인 편향 – 원본 비디오는 주로 교육용이며, 이는 다른 맥락(예: 스포츠, 감시)에서 흔히 발생하는 행동을 충분히 대표하지 못할 수 있습니다.
- 명시적인 시각적 기반 검증 부재 – 인간 검토가 높은 품질을 보여주지만, 파이프라인은 전체 데이터셋에 대한 시간 정렬 정확성을 평가하는 공식적인 메트릭이 없습니다.
- 연산 집약적 주석 – 120 B 파라미터 언어 모델을 사용함으로써 파이프라인 비용이 높아집니다; 향후 연구에서는 더 가벼운 추론 모델이나 증류 기법을 탐색할 수 있습니다.
- 다중모달 신호로 확장 – 오디오, 음성 전사, 센서 데이터를 통합하면 데이터셋을 더욱 풍부하게 만들고 다중모달 추론을 강화할 수 있습니다.
Action100M은 대규모 비디오 이해의 민주화를 향한 중요한 단계입니다. 방대한 오픈 보카뷸러리 리소스를 공개함으로써, 저자들은 개발자들이 비용이 많이 드는 수동 주석이라는 전통적인 병목 현상 없이 더 능력 있고 적응력 있는 비디오 AI 시스템을 구축할 수 있는 길을 열었습니다.
저자
- Delong Chen
- Tejaswi Kasarla
- Yejin Bang
- Mustafa Shukor
- Willy Chung
- Jade Yu
- Allen Bolourchi
- Theo Moutakanni
- Pascale Fung
논문 정보
- arXiv ID: 2601.10592v1
- 분류: cs.CV
- 출판일: 2026년 1월 15일
- PDF: PDF 다운로드