[Paper] 分层动作学习用于弱监督动作分割

发布: (2026年2月28日 GMT+8 02:48)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.24275v1

概述

本文提出了 Hierarchical Action Learning (HAL),一种用于弱监督动作分割的新框架,模拟人类解析活动的方式:通过识别少量高层次的“关键转变”,来指导大量低层次的视觉变化。通过显式建模视觉线索和抽象动作演化的不同速度,HAL 在分割边界的准确性上远超以往方法。

关键贡献

  • 层次因果生成模型 – 将视频创作形式化为一个高层潜在动作序列,驱动缓慢变化的动态,而低层视觉特征则快速波动。
  • 多时间尺度潜在变量的确定性对齐 – 引入时间对齐机制,使高层动作变量与视觉流保持同步。
  • 层次金字塔 Transformer – 一种新颖的架构,能够在多个时间分辨率上联合编码视觉特征和潜在变量。
  • 稀疏转移约束 – 强制高层动作不频繁变化,从而在弱监督下更易于识别。
  • 可辨识性证明 – 在温和的假设下,作者证明了高层潜在动作可以唯一恢复,这在弱监督视频研究中是罕见的理论保证。
  • 领先的性能 – HAL 在多个基准数据集(如 Breakfast、50Salads、GTEA)上超越了现有的弱监督分割基线,达到最先进的水平。

方法论

  1. 生成视角 – 假设视频由两个潜在过程生成:

    • 高层动作潜在 (a_t)(变化缓慢,例如“倒牛奶”)。
    • 低层视觉潜在 (v_t)(快速变化的像素级线索)。
      高层动作会影响视觉潜在的动态,类似于意图塑造可观察运动的方式。
  2. 确定性时间对齐 – 一组确定性函数将每个高层潜在映射到一段低层帧的窗口,确保较慢的动作变量在快速的视觉波动中保持一致。

  3. 层级金字塔 Transformer

    • 底层 处理原始帧级特征(例如 I3D 嵌入)。
    • 上层 将这些特征聚合到更粗的时间区间,同时学习高层动作潜在的嵌入。
    • 跳连结使信息能够双向流动,既保留细粒度细节,又捕获长程依赖。
  4. 稀疏转移正则化器 – 一个惩罚项鼓励高层潜在序列的转移次数少,体现了人类很少在每一帧都切换高层动作的直觉。

  5. 弱监督下的训练 – 只需要视频级的动作标签(动作顺序)。模型通过分类损失与稀疏项的组合,联合优化 Transformer、对齐函数以及转移正则化器。

结果与发现

数据集指标(例如 F1@0.5)HAL 与 先前最佳
Breakfast78.3%+7.2 pts
50Salads71.5%+5.9 pts
GTEA84.1%+6.4 pts
  • 更高的分割准确率 在所有时间粒度(0.1、0.25、0.5 IoU 阈值)上均表现出色。
  • 更稳定的动作边界 – 视觉检查表明 HAL 避免了仅使用 transformer 基线常见的“过度分割”问题。
  • 对噪声标签的鲁棒性 – 当提供的动作顺序部分被打乱时,得益于其显式的高层潜在建模,HAL 能够平稳降级。
  • 消融研究 证实每个组件(金字塔 transformer、稀疏转移、确定性对齐)对最终提升都有显著贡献。

实际意义

  • 更快的标注流水线 – 企业可以仅使用视频级标签(例如“切、搅拌、上菜”)来训练分割模型,而无需逐帧标注,从而将标注成本降低超过80%。
  • 改进的视频分析 – 更可靠的动作边界能够支持下游任务,如自动视频剪辑、安全监控以及对时间精度要求高的人机协作。
  • 边缘部署 – 分层设计使得高层潜在推断可以在较低帧率下运行,降低计算量的同时保持精度——这对移动端或嵌入式设备非常有用。
  • 可迁移性 – 由于 HAL 学习了通用的高层动作表征,它可以在新领域(例如工业装配线)上进行微调,仅需极少的额外数据。

限制与未来工作

  • 假设明确的时间尺度分离 – HAL 依赖于高层和低层动态之间的显著间隔;高度交错的动作仍可能对模型构成挑战。
  • 对超长视频的可扩展性 – 金字塔 Transformer 的内存占用随视频长度增长;未来工作可探索流式或内存高效的变体。
  • 弱监督仅限于有序动作集合 – 当前的表述需要正确的动作顺序;扩展到无序或部分缺失标签是一个开放方向。
  • 真实场景部署研究 – 虽然基准表现令人鼓舞,论文未包含大规模生产实验;在实际系统中评估 HAL(如智能厨房)将巩固其实际影响。

作者

  • Junxian Huang
  • Ruichu Cai
  • Hao Zhu
  • Juntao Fang
  • Boyan Xu
  • Weilin Chen
  • Zijian Li
  • Shenghua Gao

论文信息

  • arXiv ID: 2602.24275v1
  • 类别: cs.CV
  • 出版日期: 2026年2月27日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »