[Paper] 分层动作学习用于弱监督动作分割

发布: 3天前 (2026年2月28日 GMT+8 02:48)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.24275v1

概述

本文提出了 Hierarchical Action Learning (HAL)，一种用于弱监督动作分割的新框架，模拟人类解析活动的方式：通过识别少量高层次的“关键转变”，来指导大量低层次的视觉变化。通过显式建模视觉线索和抽象动作演化的不同速度，HAL 在分割边界的准确性上远超以往方法。

关键贡献

层次因果生成模型 – 将视频创作形式化为一个高层潜在动作序列，驱动缓慢变化的动态，而低层视觉特征则快速波动。
多时间尺度潜在变量的确定性对齐 – 引入时间对齐机制，使高层动作变量与视觉流保持同步。
层次金字塔 Transformer – 一种新颖的架构，能够在多个时间分辨率上联合编码视觉特征和潜在变量。
稀疏转移约束 – 强制高层动作不频繁变化，从而在弱监督下更易于识别。
可辨识性证明 – 在温和的假设下，作者证明了高层潜在动作可以唯一恢复，这在弱监督视频研究中是罕见的理论保证。
领先的性能 – HAL 在多个基准数据集（如 Breakfast、50Salads、GTEA）上超越了现有的弱监督分割基线，达到最先进的水平。

方法论

生成视角 – 假设视频由两个潜在过程生成：
- 高层动作潜在 (a_t)（变化缓慢，例如“倒牛奶”）。
- 低层视觉潜在 (v_t)（快速变化的像素级线索）。
  高层动作会影响视觉潜在的动态，类似于意图塑造可观察运动的方式。
确定性时间对齐 – 一组确定性函数将每个高层潜在映射到一段低层帧的窗口，确保较慢的动作变量在快速的视觉波动中保持一致。
层级金字塔 Transformer –
- 底层处理原始帧级特征（例如 I3D 嵌入）。
- 上层将这些特征聚合到更粗的时间区间，同时学习高层动作潜在的嵌入。
- 跳连结使信息能够双向流动，既保留细粒度细节，又捕获长程依赖。
稀疏转移正则化器 – 一个惩罚项鼓励高层潜在序列的转移次数少，体现了人类很少在每一帧都切换高层动作的直觉。
弱监督下的训练 – 只需要视频级的动作标签（动作顺序）。模型通过分类损失与稀疏项的组合，联合优化 Transformer、对齐函数以及转移正则化器。

结果与发现

数据集	指标（例如 F1@0.5）	HAL 与先前最佳
Breakfast	78.3%	+7.2 pts
50Salads	71.5%	+5.9 pts
GTEA	84.1%	+6.4 pts

更高的分割准确率 在所有时间粒度（0.1、0.25、0.5 IoU 阈值）上均表现出色。
更稳定的动作边界 – 视觉检查表明 HAL 避免了仅使用 transformer 基线常见的“过度分割”问题。
对噪声标签的鲁棒性 – 当提供的动作顺序部分被打乱时，得益于其显式的高层潜在建模，HAL 能够平稳降级。
消融研究 证实每个组件（金字塔 transformer、稀疏转移、确定性对齐）对最终提升都有显著贡献。

实际意义

更快的标注流水线 – 企业可以仅使用视频级标签（例如“切、搅拌、上菜”）来训练分割模型，而无需逐帧标注，从而将标注成本降低超过80%。
改进的视频分析 – 更可靠的动作边界能够支持下游任务，如自动视频剪辑、安全监控以及对时间精度要求高的人机协作。
边缘部署 – 分层设计使得高层潜在推断可以在较低帧率下运行，降低计算量的同时保持精度——这对移动端或嵌入式设备非常有用。
可迁移性 – 由于 HAL 学习了通用的高层动作表征，它可以在新领域（例如工业装配线）上进行微调，仅需极少的额外数据。

限制与未来工作

假设明确的时间尺度分离 – HAL 依赖于高层和低层动态之间的显著间隔；高度交错的动作仍可能对模型构成挑战。
对超长视频的可扩展性 – 金字塔 Transformer 的内存占用随视频长度增长；未来工作可探索流式或内存高效的变体。
弱监督仅限于有序动作集合 – 当前的表述需要正确的动作顺序；扩展到无序或部分缺失标签是一个开放方向。
真实场景部署研究 – 虽然基准表现令人鼓舞，论文未包含大规模生产实验；在实际系统中评估 HAL（如智能厨房）将巩固其实际影响。

作者

Junxian Huang
Ruichu Cai
Hao Zhu
Juntao Fang
Boyan Xu
Weilin Chen
Zijian Li
Shenghua Gao

论文信息

arXiv ID: 2602.24275v1
类别: cs.CV
出版日期: 2026年2月27日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] UFO-4D：无姿态前馈式四维重建（基于两张图像）

从未标定的图像进行密集的4D重建仍然是一个关键挑战，现有方法依赖于缓慢的test-time优化或碎片化的、task-specific……

[Paper] Mode Seeking 与 Mean Seeking 相结合，实现快速长视频生成

将 video generation 从秒级扩展到分钟级面临一个关键瓶颈：虽然 short‑video 数据丰富且 high‑fidelity，但 coherent long‑form 数据却是……

[Paper] 联合几何与轨迹一致性学习用于一步真实世界超分辨率

基于扩散的真实世界图像超分辨率（Real-ISR）在感知质量上表现出色，但由于迭代采样导致的高计算成本而受到限制。

[Paper] MuViT：多分辨率 Vision Transformers 在显微镜中的跨尺度学习

现代显微镜常规产生千兆像素图像，包含跨多个空间尺度的结构，从细胞形态的细微特征到更广阔的组织或……