[Paper] FineTec:在时间扰动下通过骨架分解和序列补全进行细粒度动作识别

发布: (2026年1月1日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.25067v1

概述

FineTec 解决了使用姿态 AI 的开发者面临的真实痛点:在输入骨骼数据充斥缺失帧或噪声关节的情况下,识别细微、细粒度的人体动作。通过融合智能序列补全、受物理启发的运动模型以及图神经网络(GCN)分类,该框架能够恢复受损的骨骼流,并提取区分极其相似动作所需的细腻运动线索。

关键贡献

  • 统一的抗腐蚀管线 – 将 temporal in‑paintingspatial decompositionphysics‑driven dynamics 集成到一个端到端模型中。
  • 上下文感知的序列补全 – 使用多样的时间遮蔽训练补全模块,能够在广泛的腐蚀水平下重建缺失的关节。
  • 语义骨架分解 – 自动将人体骨架划分为五个身体部位,并进一步基于运动方差划分为 dynamicstatic 关节组,实现有针对性的数据增强。
  • 拉格朗日动力学估计器 – 从恢复的位置计算关节加速度,提供与原始关节坐标互补的物理驱动特征。
  • 关节位置 + 加速度 GCN 头 – 在图卷积网络中融合空间和动态线索,在严重时间腐蚀下于粗粒度和细粒度基准上实现最先进的准确率。

方法论

  1. Temporal Corruption Modeling – 在训练期间,原始骨架序列会在时间维度上随机遮蔽(例如,删除整帧或单个关节观测),以模拟在线姿态估计器产生的缺失情况。
  2. Base Sequence Restoration – 采用 transformer‑style encoder‑decoder 学习利用周围上下文填补缺失部分,生成一个 base 骨架流,其完整度已超过原始输入。
  3. Spatial Decomposition & Augmentation
    • 将骨架划分为五个语义区域(头部‑躯干、左/右手臂、左/右腿)。
    • 在每个区域内,关节被分类为 dynamic(高方差)或 static(低方差)。
    • 生成两个辅助流:一个对 dynamic 关节进行轻微扰动(以提升鲁棒性),另一个对 static 关节进行扰动(以揭示隐藏的判别线索)。
  4. Physics‑Driven Estimation – 利用拉格朗日力学,从三个流(base + 两个 augmentations)中估计关节加速度。此步骤注入了对运动的物理意义表征,降低了对缺失数据的敏感性。
  5. GCN‑Based Recognition Head – 将融合后的位置信号序列和融合后的加速度序列输入图卷积网络(GCN),该网络遵循人体骨架的自然连通性,最终输出动作类别。

整个系统端到端训练,使得补全、分解和动力学模块能够共同适应,以最大化分类性能。

结果与发现

数据集(腐蚀程度)Top‑1 准确率(FineTec)最佳已有方法提升
NTU‑60(standard)96.4 %94.7 %+1.7 %
NTU‑120(standard)94.2 %92.5 %+1.7 %
Gym99 – severe corruption89.1 %81.3 %+7.8 %
Gym288 – severe corruption78.1 %70.4 %+7.7 %
  • 随着腐蚀程度加剧,FineTec 的优势进一步提升,证实了 completion + physics 流水线在数据丢失极端情况下尤为有效。
  • 消融实验表明,去除任意一个支柱(completion、decomposition、acceleration)会导致性能下降 3–5 %,凸显它们的互补性。
  • 该模型在粗粒度(NTU)和细粒度(Gym)任务上均能实现泛化,无需任务特定调优,表明其是一个稳健且可复用的骨架感知骨干网络。

实际意义

  • 稳健的实时分析 – 开发监控、体育分析或 AR/VR 体验的开发者现在可以依赖基于骨架的动作分类器,即使上游姿态估计器因遮挡或低光等原因丢帧(例如,遮挡或低光条件下)。
  • 边缘部署 – 核心组件(用于补全的轻量级 Transformer 和 GCN)可以量化后在现代边缘 AI 芯片上运行,实现设备端推理,无需将原始视频发送至云端。
  • 数据高效微调 – 由于 FineTec 学会填补缺失,它降低了对干净骨架数据进行繁琐手工标注的需求;开发者可以在噪声较大、真实环境下的捕获数据上进行训练,仍然获得高准确率。
  • 跨模态扩展 – 基于物理驱动的加速度流可以与其他模态(如音频或惯性传感器)融合,构建对单一传感器失效具有鲁棒性的多模态活动识别流水线。

限制与未来工作

  • 计算开销 – 与普通 GCN 相比,时序完成 Transformer 和拉格朗日估计器会增加延迟;实时约束可能需要模型剪枝或蒸馏。
  • 对骨骼拓扑的假设 – 该分解依赖固定的 25 关节骨架;若要适配其他姿态表示(例如稠密网格或仅手部关键点),则需要重新设计。
  • 对极端遮挡的探索有限 – 虽然论文模拟了时序遮挡,但真实场景中的遮挡常常导致相关的关节缺失(例如整条肢体)。未来工作可以加入空间遮挡策略以及多模态先验(RGB、深度)以进一步提升鲁棒性。

FineTec 为在输入混乱的情况下实现可靠的细粒度动作理解打开了大门——这正是大多数开发者今天所面对的嘈杂数据流水线的真实场景。

作者

  • Dian Shao
  • Mingfei Shi
  • Like Liu

论文信息

  • arXiv ID: 2512.25067v1
  • 分类: cs.CV
  • 发表时间: 2025年12月31日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »