[Paper] 基于姿态的手语定位 via an End-to-End Encoder Architecture
发布: (2025年12月9日 GMT+8 23:49)
6 min read
原文: arXiv
Source: arXiv - 2512.08738v1
概览
本文提出了 手语检测(Sign Language Spotting),这是一项新任务,要求系统判断一个短查询手语是否出现在更长的连续手语视频中。作者直接在身体姿态关键点上工作,而非原始视频帧,提出了一种高效的端到端编码器,能够以竞争性的准确率回答这个二元的“出现/不存在”问题。
主要贡献
- 任务定义 – 将 手语检测 正式化为一种检索问题,区别于完整句子词汇识别。
- 仅姿态管线 – 仅使用 2‑D/3‑D 骨架关键点作为输入,省去昂贵的 RGB 处理,降低背景、光照等视觉噪声。
- 仅编码器架构 – 轻量级的 Transformer 风格编码器配合二分类头,端到端训练,无需中间的词汇或文本监督。
- 基准结果 – 在 WSLP 2025 “词出现预测” 数据集上达到 61.88 % 的准确率和 60.00 % 的 F1,提供了未来工作的强基线。
- 开源发布 – 代码和预训练模型已公开,鼓励可复现性和社区扩展。
方法论
- 姿态提取 – 对每帧视频使用现成的姿态估计器(如 OpenPose、MediaPipe)得到关键点向量序列(关节坐标 + 置信度)。
- 时序编码 – 将 查询 视频和 目标 视频的关键点序列拼接后送入共享的 Transformer 编码器。位置嵌入捕获帧顺序,自注意力机制让模型关联两条流之间的运动模式。
- 二分类头 – 对编码器的最终隐藏状态进行池化(如均值池化),再通过一个小型 MLP 输出单个 sigmoid 分数,表示“查询出现”。
- 训练 – 使用二元交叉熵损失在标记的正负对上进行训练(正样本 = 查询出现,负样本 = 未出现),无需词汇标注或语言模型。
整个管线仅基于姿态数据运行,相比基于 RGB 的 CNN‑RNN 混合模型大幅降低内存占用和推理延迟。
结果与发现
| 指标 | 数值 |
|---|---|
| 准确率 | 61.88 % |
| F1‑score | 60.00 % |
| 模型大小 | ~12 M 参数(≈ 45 MB) |
| 推理速度 | 在单块 RTX 3080 上约 120 fps(姿态输入) |
- 仅姿态模型优于在同一任务上训练的基线 RGB 3‑D CNN,证明骨架运动是检测最具判别力的信息。
- 消融实验显示,去掉自注意力或仅使用查询(无目标上下文)会导致性能下降 > 10 %,凸显联合时序建模的重要性。
- 由于姿态关键点的抽象化,系统对签者外观和背景变化具有鲁棒性。
实际意义
- 实时手语检索 – 开发者可将模型嵌入手语视频库的搜索工具,实现对特定手语的即时查找,无需人工标注。
- 辅助交互界面 – 移动端或网页应用可在实时视频流中检测特定手语(如警告或品牌名),提升聋人用户的可及性。
- 低资源部署 – 仅需姿态数据即可运行,模型可在边缘设备(智能手机、AR 眼镜)上以适度算力运行,为设备端手语验证打开可能。
- 数据标注辅助 – 自动检测可预筛选长视频,帮助人工标注者只需确认或纠正检测结果,加速下游手语识别(ASLR)数据集的构建。
局限性与未来工作
- 姿态质量依赖 – 模型准确率受关键点检测可靠性影响;遮挡、极端摄像角度或低分辨率会导致性能下降。
- 二元范围 – 当前仅回答“出现/不存在”。扩展到多类检测(识别 哪一个 手语)或处理重叠手语仍待探索。
- 时序粒度 – 检测在视频层面进行,未提供更细粒度的起止帧定位。
- 数据集规模 – WSLP 2025 基准相对较小,需要更大、更具多样性的语料库来评估跨手语和签写风格的泛化能力。
未来研究方向包括融合姿态+手形特征、在海量未标注手语视频上进行自监督预训练,以及探索能够同时完成检测和完整句子翻译的层次化模型。
作者
- Samuel Ebimobowei Johnny
- Blessed Guda
- Emmanuel Enejo Aaron
- Assane Gueye
论文信息
- arXiv ID: 2512.08738v1
- 分类: cs.CV, cs.CL
- 发表时间: 2025 年 12 月 9 日
- PDF: Download PDF