[Paper] 基于姿态的手语定位 via an End-to-End Encoder Architecture

发布: (2025年12月9日 GMT+8 23:49)
6 min read
原文: arXiv

Source: arXiv - 2512.08738v1

概览

本文提出了 手语检测(Sign Language Spotting),这是一项新任务,要求系统判断一个短查询手语是否出现在更长的连续手语视频中。作者直接在身体姿态关键点上工作,而非原始视频帧,提出了一种高效的端到端编码器,能够以竞争性的准确率回答这个二元的“出现/不存在”问题。

主要贡献

  • 任务定义 – 将 手语检测 正式化为一种检索问题,区别于完整句子词汇识别。
  • 仅姿态管线 – 仅使用 2‑D/3‑D 骨架关键点作为输入,省去昂贵的 RGB 处理,降低背景、光照等视觉噪声。
  • 仅编码器架构 – 轻量级的 Transformer 风格编码器配合二分类头,端到端训练,无需中间的词汇或文本监督。
  • 基准结果 – 在 WSLP 2025 “词出现预测” 数据集上达到 61.88 % 的准确率和 60.00 % 的 F1,提供了未来工作的强基线。
  • 开源发布 – 代码和预训练模型已公开,鼓励可复现性和社区扩展。

方法论

  1. 姿态提取 – 对每帧视频使用现成的姿态估计器(如 OpenPose、MediaPipe)得到关键点向量序列(关节坐标 + 置信度)。
  2. 时序编码 – 将 查询 视频和 目标 视频的关键点序列拼接后送入共享的 Transformer 编码器。位置嵌入捕获帧顺序,自注意力机制让模型关联两条流之间的运动模式。
  3. 二分类头 – 对编码器的最终隐藏状态进行池化(如均值池化),再通过一个小型 MLP 输出单个 sigmoid 分数,表示“查询出现”。
  4. 训练 – 使用二元交叉熵损失在标记的正负对上进行训练(正样本 = 查询出现,负样本 = 未出现),无需词汇标注或语言模型。

整个管线仅基于姿态数据运行,相比基于 RGB 的 CNN‑RNN 混合模型大幅降低内存占用和推理延迟。

结果与发现

指标数值
准确率61.88 %
F1‑score60.00 %
模型大小~12 M 参数(≈ 45 MB)
推理速度在单块 RTX 3080 上约 120 fps(姿态输入)
  • 仅姿态模型优于在同一任务上训练的基线 RGB 3‑D CNN,证明骨架运动是检测最具判别力的信息。
  • 消融实验显示,去掉自注意力或仅使用查询(无目标上下文)会导致性能下降 > 10 %,凸显联合时序建模的重要性。
  • 由于姿态关键点的抽象化,系统对签者外观和背景变化具有鲁棒性。

实际意义

  • 实时手语检索 – 开发者可将模型嵌入手语视频库的搜索工具,实现对特定手语的即时查找,无需人工标注。
  • 辅助交互界面 – 移动端或网页应用可在实时视频流中检测特定手语(如警告或品牌名),提升聋人用户的可及性。
  • 低资源部署 – 仅需姿态数据即可运行,模型可在边缘设备(智能手机、AR 眼镜)上以适度算力运行,为设备端手语验证打开可能。
  • 数据标注辅助 – 自动检测可预筛选长视频,帮助人工标注者只需确认或纠正检测结果,加速下游手语识别(ASLR)数据集的构建。

局限性与未来工作

  • 姿态质量依赖 – 模型准确率受关键点检测可靠性影响;遮挡、极端摄像角度或低分辨率会导致性能下降。
  • 二元范围 – 当前仅回答“出现/不存在”。扩展到多类检测(识别 哪一个 手语)或处理重叠手语仍待探索。
  • 时序粒度 – 检测在视频层面进行,未提供更细粒度的起止帧定位。
  • 数据集规模 – WSLP 2025 基准相对较小,需要更大、更具多样性的语料库来评估跨手语和签写风格的泛化能力。

未来研究方向包括融合姿态+手形特征、在海量未标注手语视频上进行自监督预训练,以及探索能够同时完成检测和完整句子翻译的层次化模型。

作者

  • Samuel Ebimobowei Johnny
  • Blessed Guda
  • Emmanuel Enejo Aaron
  • Assane Gueye

论文信息

  • arXiv ID: 2512.08738v1
  • 分类: cs.CV, cs.CL
  • 发表时间: 2025 年 12 月 9 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »