[Paper] Bangla 手语翻译:数据集创建挑战、基准测试与前景
发布: (2025年11月27日 GMT+8 00:00)
6 min read
原文: arXiv
Source: arXiv - 2511.21533v1
概览
Bangla 手语翻译(BdSLT)长期缺乏数据,导致难以为孟加拉语聋人社区构建可靠的 AI 助手。本文推出 IsharaKhobor,首个规模可观、公开发布的孟加拉手语数据集,并展示不同预处理技巧对翻译性能的影响。
关键贡献
- IsharaKhobor 数据集:约 5 k 条包含对齐文本翻译的孟加拉手语视频片段,已在 Kaggle 上发布。
- 两个精心挑选的子集:
- IsharaKhobor_small:针对低资源实验的受限词汇版本。
- IsharaKhobor_canonical_small:与前者相同,但使用了标准化(规范化)的 gloss。
- 数据集创建流水线:详细讨论标注工作流、质量控制以及孟加拉手语独有的语言学挑战。
- 基准套件:使用基于关键点的原始视频特征和最新的 RQE(Relation‑Query‑Embedding)方法的基线模型,并对词汇规模和规范化进行消融研究。
- 开源发布:数据、预处理脚本和评估代码全部公开,鼓励可重复性研究和社区贡献。
方法论
- 数据收集 – 本土 BdSL 手语者录制了时长 5‑15 秒的短句,涵盖日常话题。每段视频使用单摄像头的 RGB 采集,在统一光照条件下拍摄。
- 标注 – 专业孟加拉语言学家将手语内容转写为文本句子,并生成 gloss(手语的逐词表示)。
- 预处理 –
- 关键点提取:使用 OpenPose 提取 2‑D 手部、身体和面部关键点(约每帧 150 点)。
- RQE 嵌入:基于 Transformer 的编码器,对时空关键点序列学习关系查询。
- 词汇限制:在 “small” 子集中仅保留最常出现的 1 k 个 gloss。
- 规范化:对 gloss 进行标准化(如合并同义词、纠正拼写),以降低噪声。
- 建模 – 使用序列到序列架构(带注意力的 Encoder‑Decoder)在原始关键点和 RQE 嵌入上进行训练。采用标准指标(BLEU、ROUGE、METEOR)评估翻译质量。
- 消融实验 – 对比:完整词汇 vs. 小词汇、原始 gloss vs. 规范化 gloss、关键点特征 vs. RQE 特征。
结果与发现
| 实验 | BLEU ↑ | ROUGE‑L ↑ | METEOR ↑ |
|---|---|---|---|
| 完整数据集(关键点) | 21.4 | 38.7 | 19.2 |
| 完整数据集(RQE) | 24.1 | 41.2 | 22.0 |
| 小词汇(关键点) | 18.9 | 35.4 | 17.5 |
| 小词汇(规范化) | 20.6 | 37.1 | 19.0 |
- RQE 嵌入始终优于原始关键点,证明关系建模比单纯关键点更能捕捉手语动态。
- 规范化带来适度提升(约 1.5 BLEU),因为它降低了 gloss 的歧义性。
- 词汇限制会降低性能,但在结合规范化后差距缩小,表明在超低资源场景下仍有可行路径。
实际意义
- 辅助应用 – 开发者现在可以使用已发布的数据集和基线代码快速原型化实时 BdSL‑to‑text 翻译器,加速为孟加拉语聋人用户打造移动或网页通信工具。
- 迁移学习 – RQE 编码器可在其他手语上进行微调,为多语言手语研究提供可复用组件。
- 课程设计 – 教育者可利用精挑细选的子集教授机器学习概念(如数据清洗、低资源 NLP),并以具有文化相关性的实例进行教学。
- 标准化工作 – 规范化的 gloss 为构建孟加拉手语词典提供起点,可用于政府主导的可及性标准制定。
局限性与未来工作
- 规模 – 约 5 k 条视频仍相对较小,需进一步收集更多不同手语者、环境和句式。
- 模态 – 仅采集了 RGB 视频;深度或动作捕捉数据有望提升手形辨识度。
- 评估 – BLEU 类指标可能无法完整反映手语细微差别,计划加入人工评估环节。
- 建模 – 本研究聚焦于基于关键点的流水线,未来可探索端到端视频 Transformer 或与音频(针对能读唇的听障用户)的多模态融合。
作者
- Husne Ara Rubaiyeat
- Hasan Mahmud
- Md Kamrul Hasan
论文信息
- arXiv ID: 2511.21533v1
- 分类: cs.CL, cs.CV
- 发布日期: 2025 年 11 月 26 日
- PDF: Download PDF