[Paper] Action100M: 大规模视频动作数据集

发布: (2026年1月16日 GMT+8 01:02)
7 min read
原文: arXiv

Source: arXiv - 2601.10592v1

概览

本文介绍了 Action100M,一个庞大的、自动策划的视频动作数据集,基于 120 万个教学视频(超过 14 年的素材)构建。通过提供约 1 亿个时间定位的片段,配以开放词汇的动作标签和丰富的层次化字幕,作者旨在为研究社区提供一个用于大规模训练和评估视频理解模型的“基础”资源。

关键贡献

  • 规模优先数据集:约 1 亿标注视频片段,覆盖广泛的日常动作,远超现有视频动作语料库。
  • 全自动流水线:结合层次时间分割(V‑JEPA 2)、多层级标题生成(Tree‑of‑Captions)和大规模推理模型(GPT‑OSS‑120B)以及 Self‑Refine 循环,生成高质量、结构化的标注,无需人工标注。
  • 开放词汇监督:动作标签和标题不局限于固定分类体系,使模型能够从自然语言描述中学习。
  • 实证效用:在 Action100M 上训练 VL‑JEPA 视觉语言模型,可在多个下游动作识别基准上实现一致的性能提升和强大的零样本表现。
  • 公开发布:数据集及标注流水线代码向社区开放,促进可复现性和进一步的规模化工作。

Methodology

  1. Data collection – 收集了 1.2 M 条公开可得的教学视频,覆盖烹饪、DIY、健身等多个领域。
  2. Hierarchical temporal segmentation – 使用 V‑JEPA 2 嵌入(自监督视频编码器),对视频进行递归划分,生成连贯的子片段,形成树状的时间结构。
  3. Tree‑of‑Captions generation – 对每个片段及其父帧,字幕模型生成简短和详细的文本描述,构成多层次的“caption tree”。
  4. Reasoning & structuring – 采用 120 billion 参数的语言模型(GPT‑OSS‑120B)读取原始字幕,并执行多轮 Self‑Refine:验证、合并并重构信息,使其符合统一的标注模式(动作动词、参与者、短/长字幕)。
  5. Dataset assembly – 最终输出为一组时间定位的视频片段,每个片段配有结构化的开放词汇标签以及层级化的自然语言字幕。

整个流水线无需人工干预,能够实现对数亿示例的规模化处理。

结果与发现

  • 扩展收益 – 在 Action100M 上训练 VL‑JEPA(相较于较小的数据集)将 Kinetics‑400 的 top‑1 准确率提升约 4 %,在 Something‑Else 上提升约 5 %,证实更多数据可转化为更好的视觉‑语言表征。
  • 零样本迁移 – 在 Action100M 上预训练的模型在未见过的动作基准(如 HMDB‑51、UCF‑101)上实现了最先进的零样本性能,无需任何微调,展示了所学表征的通用性。
  • 标注质量 – 人工抽查显示,超过 85 % 的生成动作标签和字幕在语义上是正确的且时间上对齐,这在全自动流程中是一个显著的数值。
  • 消融研究 – 移除任何流水线组件(例如 Self‑Refine 步骤或层次分割)都会导致下游性能明显下降,凸显了每个阶段的重要性。

实际意义

  • 更好的视频 AI 为开发者 – 在 Action100M 上预训练的模型可以在标注样本极少的情况下进行微调,以用于视频检索、内容审核或自动教程生成等特定应用。
  • 开放词汇动作检测 – 由于数据集不受固定标签集限制,下游系统能够识别自然语言描述的全新动作,从而实现更灵活的用户驱动查询(“给我展示有人打蛋的片段”)。
  • 降低标注成本 – 该流水线为组织提供了生成自有领域特定视频语料库(例如工业安全录像)的蓝图,无需昂贵的人工标注。
  • 多模态世界模型的基础 – 丰富的字幕层次结构提供了粗粒度和细粒度的语义上下文,可在需要推理正在进行的活动的机器人或 AR/VR 系统中加以利用。

限制与未来工作

  • 领域偏差 – 源视频主要是教学类的,这可能导致其他情境下常见动作(例如体育、监控)被低估。
  • 缺乏显式视觉定位验证 – 虽然人工检查显示质量很高,但该流水线缺少对整个数据集时间对齐准确性的正式度量。
  • 计算密集型标注 – 使用 120 B 参数的语言模型使得流水线成本高昂;未来工作可以探索更轻量的推理模型或蒸馏技术。
  • 扩展至多模态信号 – 融入音频、语音转录或传感器数据可以进一步丰富数据集,并实现更丰富的多模态推理。

Action100M 标志着向大众化大规模视频理解迈出的重要一步。通过公开提供一个庞大的开放词汇资源,作者为开发者打开了构建更强大、更加适应性的视频 AI 系统的大门,摆脱了传统昂贵人工标注的瓶颈。

作者

  • Delong Chen
  • Tejaswi Kasarla
  • Yejin Bang
  • Mustafa Shukor
  • Willy Chung
  • Jade Yu
  • Allen Bolourchi
  • Theo Moutakanni
  • Pascale Fung

论文信息

  • arXiv ID: 2601.10592v1
  • 分类: cs.CV
  • 发表时间: 2026年1月15日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »