[Paper] 分层动作学习用于弱监督动作分割
发布: (2026年2月28日 GMT+8 02:48)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.24275v1
概述
本文提出了 Hierarchical Action Learning (HAL),一种用于弱监督动作分割的新框架,模拟人类解析活动的方式:通过识别少量高层次的“关键转变”,来指导大量低层次的视觉变化。通过显式建模视觉线索和抽象动作演化的不同速度,HAL 在分割边界的准确性上远超以往方法。
关键贡献
- 层次因果生成模型 – 将视频创作形式化为一个高层潜在动作序列,驱动缓慢变化的动态,而低层视觉特征则快速波动。
- 多时间尺度潜在变量的确定性对齐 – 引入时间对齐机制,使高层动作变量与视觉流保持同步。
- 层次金字塔 Transformer – 一种新颖的架构,能够在多个时间分辨率上联合编码视觉特征和潜在变量。
- 稀疏转移约束 – 强制高层动作不频繁变化,从而在弱监督下更易于识别。
- 可辨识性证明 – 在温和的假设下,作者证明了高层潜在动作可以唯一恢复,这在弱监督视频研究中是罕见的理论保证。
- 领先的性能 – HAL 在多个基准数据集(如 Breakfast、50Salads、GTEA)上超越了现有的弱监督分割基线,达到最先进的水平。
方法论
-
生成视角 – 假设视频由两个潜在过程生成:
- 高层动作潜在 (a_t)(变化缓慢,例如“倒牛奶”)。
- 低层视觉潜在 (v_t)(快速变化的像素级线索)。
高层动作会影响视觉潜在的动态,类似于意图塑造可观察运动的方式。
-
确定性时间对齐 – 一组确定性函数将每个高层潜在映射到一段低层帧的窗口,确保较慢的动作变量在快速的视觉波动中保持一致。
-
层级金字塔 Transformer –
- 底层 处理原始帧级特征(例如 I3D 嵌入)。
- 上层 将这些特征聚合到更粗的时间区间,同时学习高层动作潜在的嵌入。
- 跳连结使信息能够双向流动,既保留细粒度细节,又捕获长程依赖。
-
稀疏转移正则化器 – 一个惩罚项鼓励高层潜在序列的转移次数少,体现了人类很少在每一帧都切换高层动作的直觉。
-
弱监督下的训练 – 只需要视频级的动作标签(动作顺序)。模型通过分类损失与稀疏项的组合,联合优化 Transformer、对齐函数以及转移正则化器。
结果与发现
| 数据集 | 指标(例如 F1@0.5) | HAL 与 先前最佳 |
|---|---|---|
| Breakfast | 78.3% | +7.2 pts |
| 50Salads | 71.5% | +5.9 pts |
| GTEA | 84.1% | +6.4 pts |
- 更高的分割准确率 在所有时间粒度(0.1、0.25、0.5 IoU 阈值)上均表现出色。
- 更稳定的动作边界 – 视觉检查表明 HAL 避免了仅使用 transformer 基线常见的“过度分割”问题。
- 对噪声标签的鲁棒性 – 当提供的动作顺序部分被打乱时,得益于其显式的高层潜在建模,HAL 能够平稳降级。
- 消融研究 证实每个组件(金字塔 transformer、稀疏转移、确定性对齐)对最终提升都有显著贡献。
实际意义
- 更快的标注流水线 – 企业可以仅使用视频级标签(例如“切、搅拌、上菜”)来训练分割模型,而无需逐帧标注,从而将标注成本降低超过80%。
- 改进的视频分析 – 更可靠的动作边界能够支持下游任务,如自动视频剪辑、安全监控以及对时间精度要求高的人机协作。
- 边缘部署 – 分层设计使得高层潜在推断可以在较低帧率下运行,降低计算量的同时保持精度——这对移动端或嵌入式设备非常有用。
- 可迁移性 – 由于 HAL 学习了通用的高层动作表征,它可以在新领域(例如工业装配线)上进行微调,仅需极少的额外数据。
限制与未来工作
- 假设明确的时间尺度分离 – HAL 依赖于高层和低层动态之间的显著间隔;高度交错的动作仍可能对模型构成挑战。
- 对超长视频的可扩展性 – 金字塔 Transformer 的内存占用随视频长度增长;未来工作可探索流式或内存高效的变体。
- 弱监督仅限于有序动作集合 – 当前的表述需要正确的动作顺序;扩展到无序或部分缺失标签是一个开放方向。
- 真实场景部署研究 – 虽然基准表现令人鼓舞,论文未包含大规模生产实验;在实际系统中评估 HAL(如智能厨房)将巩固其实际影响。
作者
- Junxian Huang
- Ruichu Cai
- Hao Zhu
- Juntao Fang
- Boyan Xu
- Weilin Chen
- Zijian Li
- Shenghua Gao
论文信息
- arXiv ID: 2602.24275v1
- 类别: cs.CV
- 出版日期: 2026年2月27日
- PDF: 下载 PDF