[Paper] Bangla 手语翻译:数据集创建挑战、基准测试与前景

发布: (2025年11月27日 GMT+8 00:00)
6 min read
原文: arXiv

Source: arXiv - 2511.21533v1

概览

Bangla 手语翻译(BdSLT)长期缺乏数据,导致难以为孟加拉语聋人社区构建可靠的 AI 助手。本文推出 IsharaKhobor,首个规模可观、公开发布的孟加拉手语数据集,并展示不同预处理技巧对翻译性能的影响。

关键贡献

  • IsharaKhobor 数据集:约 5 k 条包含对齐文本翻译的孟加拉手语视频片段,已在 Kaggle 上发布。
  • 两个精心挑选的子集
    • IsharaKhobor_small:针对低资源实验的受限词汇版本。
    • IsharaKhobor_canonical_small:与前者相同,但使用了标准化(规范化)的 gloss。
  • 数据集创建流水线:详细讨论标注工作流、质量控制以及孟加拉手语独有的语言学挑战。
  • 基准套件:使用基于关键点的原始视频特征和最新的 RQE(Relation‑Query‑Embedding)方法的基线模型,并对词汇规模和规范化进行消融研究。
  • 开源发布:数据、预处理脚本和评估代码全部公开,鼓励可重复性研究和社区贡献。

方法论

  1. 数据收集 – 本土 BdSL 手语者录制了时长 5‑15 秒的短句,涵盖日常话题。每段视频使用单摄像头的 RGB 采集,在统一光照条件下拍摄。
  2. 标注 – 专业孟加拉语言学家将手语内容转写为文本句子,并生成 gloss(手语的逐词表示)。
  3. 预处理
    • 关键点提取:使用 OpenPose 提取 2‑D 手部、身体和面部关键点(约每帧 150 点)。
    • RQE 嵌入:基于 Transformer 的编码器,对时空关键点序列学习关系查询。
    • 词汇限制:在 “small” 子集中仅保留最常出现的 1 k 个 gloss。
    • 规范化:对 gloss 进行标准化(如合并同义词、纠正拼写),以降低噪声。
  4. 建模 – 使用序列到序列架构(带注意力的 Encoder‑Decoder)在原始关键点和 RQE 嵌入上进行训练。采用标准指标(BLEU、ROUGE、METEOR)评估翻译质量。
  5. 消融实验 – 对比:完整词汇 vs. 小词汇、原始 gloss vs. 规范化 gloss、关键点特征 vs. RQE 特征。

结果与发现

实验BLEU ↑ROUGE‑L ↑METEOR ↑
完整数据集(关键点)21.438.719.2
完整数据集(RQE)24.141.222.0
小词汇(关键点)18.935.417.5
小词汇(规范化)20.637.119.0
  • RQE 嵌入始终优于原始关键点,证明关系建模比单纯关键点更能捕捉手语动态。
  • 规范化带来适度提升(约 1.5 BLEU),因为它降低了 gloss 的歧义性。
  • 词汇限制会降低性能,但在结合规范化后差距缩小,表明在超低资源场景下仍有可行路径。

实际意义

  • 辅助应用 – 开发者现在可以使用已发布的数据集和基线代码快速原型化实时 BdSL‑to‑text 翻译器,加速为孟加拉语聋人用户打造移动或网页通信工具。
  • 迁移学习 – RQE 编码器可在其他手语上进行微调,为多语言手语研究提供可复用组件。
  • 课程设计 – 教育者可利用精挑细选的子集教授机器学习概念(如数据清洗、低资源 NLP),并以具有文化相关性的实例进行教学。
  • 标准化工作 – 规范化的 gloss 为构建孟加拉手语词典提供起点,可用于政府主导的可及性标准制定。

局限性与未来工作

  • 规模 – 约 5 k 条视频仍相对较小,需进一步收集更多不同手语者、环境和句式。
  • 模态 – 仅采集了 RGB 视频;深度或动作捕捉数据有望提升手形辨识度。
  • 评估 – BLEU 类指标可能无法完整反映手语细微差别,计划加入人工评估环节。
  • 建模 – 本研究聚焦于基于关键点的流水线,未来可探索端到端视频 Transformer 或与音频(针对能读唇的听障用户)的多模态融合。

作者

  • Husne Ara Rubaiyeat
  • Hasan Mahmud
  • Md Kamrul Hasan

论文信息

  • arXiv ID: 2511.21533v1
  • 分类: cs.CL, cs.CV
  • 发布日期: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »