[Paper] 基于姿态的手语定位 via an End-to-End Encoder Architecture

发布: 2个月前 (2025年12月9日 GMT+8 23:49)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.08738v1

概览

本文提出了 手语检测（Sign Language Spotting），这是一项新任务，要求系统判断一个短查询手语是否出现在更长的连续手语视频中。作者直接在身体姿态关键点上工作，而非原始视频帧，提出了一种高效的端到端编码器，能够以竞争性的准确率回答这个二元的“出现/不存在”问题。

主要贡献

任务定义 – 将 手语检测 正式化为一种检索问题，区别于完整句子词汇识别。
仅姿态管线 – 仅使用 2‑D/3‑D 骨架关键点作为输入，省去昂贵的 RGB 处理，降低背景、光照等视觉噪声。
仅编码器架构 – 轻量级的 Transformer 风格编码器配合二分类头，端到端训练，无需中间的词汇或文本监督。
基准结果 – 在 WSLP 2025 “词出现预测” 数据集上达到 61.88 % 的准确率和 60.00 % 的 F1，提供了未来工作的强基线。
开源发布 – 代码和预训练模型已公开，鼓励可复现性和社区扩展。

方法论

姿态提取 – 对每帧视频使用现成的姿态估计器（如 OpenPose、MediaPipe）得到关键点向量序列（关节坐标 + 置信度）。
时序编码 – 将查询视频和目标视频的关键点序列拼接后送入共享的 Transformer 编码器。位置嵌入捕获帧顺序，自注意力机制让模型关联两条流之间的运动模式。
二分类头 – 对编码器的最终隐藏状态进行池化（如均值池化），再通过一个小型 MLP 输出单个 sigmoid 分数，表示“查询出现”。
训练 – 使用二元交叉熵损失在标记的正负对上进行训练（正样本 = 查询出现，负样本 = 未出现），无需词汇标注或语言模型。

整个管线仅基于姿态数据运行，相比基于 RGB 的 CNN‑RNN 混合模型大幅降低内存占用和推理延迟。

结果与发现

指标	数值
准确率	61.88 %
F1‑score	60.00 %
模型大小	~12 M 参数（≈ 45 MB）
推理速度	在单块 RTX 3080 上约 120 fps（姿态输入）

仅姿态模型优于在同一任务上训练的基线 RGB 3‑D CNN，证明骨架运动是检测最具判别力的信息。
消融实验显示，去掉自注意力或仅使用查询（无目标上下文）会导致性能下降 > 10 %，凸显联合时序建模的重要性。
由于姿态关键点的抽象化，系统对签者外观和背景变化具有鲁棒性。

实际意义

实时手语检索 – 开发者可将模型嵌入手语视频库的搜索工具，实现对特定手语的即时查找，无需人工标注。
辅助交互界面 – 移动端或网页应用可在实时视频流中检测特定手语（如警告或品牌名），提升聋人用户的可及性。
低资源部署 – 仅需姿态数据即可运行，模型可在边缘设备（智能手机、AR 眼镜）上以适度算力运行，为设备端手语验证打开可能。
数据标注辅助 – 自动检测可预筛选长视频，帮助人工标注者只需确认或纠正检测结果，加速下游手语识别（ASLR）数据集的构建。

局限性与未来工作

姿态质量依赖 – 模型准确率受关键点检测可靠性影响；遮挡、极端摄像角度或低分辨率会导致性能下降。
二元范围 – 当前仅回答“出现/不存在”。扩展到多类检测（识别 哪一个 手语）或处理重叠手语仍待探索。
时序粒度 – 检测在视频层面进行，未提供更细粒度的起止帧定位。
数据集规模 – WSLP 2025 基准相对较小，需要更大、更具多样性的语料库来评估跨手语和签写风格的泛化能力。

未来研究方向包括融合姿态+手形特征、在海量未标注手语视频上进行自监督预训练，以及探索能够同时完成检测和完整句子翻译的层次化模型。

作者

Samuel Ebimobowei Johnny
Blessed Guda
Emmanuel Enejo Aaron
Assane Gueye

论文信息

arXiv ID: 2512.08738v1
分类: cs.CV, cs.CL
发表时间: 2025 年 12 月 9 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] DentalGPT: 激励牙科中的多模态复杂推理

对牙科中的多模态数据进行可靠的解释对于自动化口腔健康护理至关重要，然而当前的多模态大语言模型（MLLMs）仍面临困难……

[Paper] HFS：整体查询感知帧选择用于高效视频推理

在视频理解中，关键帧选择面临重大挑战。传统的 top‑K 选择方法会独立对帧进行打分，往往会失败于……

[Paper] 我们准备好在文本到3D生成中使用RL了吗？一次渐进式调查

Reinforcement learning (RL)，此前已被证明在大型语言模型和多模态模型中有效，已成功扩展用于提升二维图像生成……

[Paper] 更强的无归一化Transformer

尽管归一化层长期被视为深度学习架构中不可或缺的组成部分，最近引入的 Dynamic Tanh (DyT) 已经……