[Paper] Bangla 手语翻译：数据集创建挑战、基准测试与前景

发布: 1个月前 (2025年11月27日 GMT+8 00:00)

6 min read

原文: arXiv

Source: arXiv - 2511.21533v1

概览

Bangla 手语翻译（BdSLT）长期缺乏数据，导致难以为孟加拉语聋人社区构建可靠的 AI 助手。本文推出 IsharaKhobor，首个规模可观、公开发布的孟加拉手语数据集，并展示不同预处理技巧对翻译性能的影响。

IsharaKhobor 数据集：约 5 k 条包含对齐文本翻译的孟加拉手语视频片段，已在 Kaggle 上发布。
两个精心挑选的子集：
- IsharaKhobor_small：针对低资源实验的受限词汇版本。
- IsharaKhobor_canonical_small：与前者相同，但使用了标准化（规范化）的 gloss。
数据集创建流水线：详细讨论标注工作流、质量控制以及孟加拉手语独有的语言学挑战。
基准套件：使用基于关键点的原始视频特征和最新的 RQE（Relation‑Query‑Embedding）方法的基线模型，并对词汇规模和规范化进行消融研究。
开源发布：数据、预处理脚本和评估代码全部公开，鼓励可重复性研究和社区贡献。

数据收集 – 本土 BdSL 手语者录制了时长 5‑15 秒的短句，涵盖日常话题。每段视频使用单摄像头的 RGB 采集，在统一光照条件下拍摄。
标注 – 专业孟加拉语言学家将手语内容转写为文本句子，并生成 gloss（手语的逐词表示）。
预处理 –
- 关键点提取：使用 OpenPose 提取 2‑D 手部、身体和面部关键点（约每帧 150 点）。
- RQE 嵌入：基于 Transformer 的编码器，对时空关键点序列学习关系查询。
- 词汇限制：在 “small” 子集中仅保留最常出现的 1 k 个 gloss。
- 规范化：对 gloss 进行标准化（如合并同义词、纠正拼写），以降低噪声。
建模 – 使用序列到序列架构（带注意力的 Encoder‑Decoder）在原始关键点和 RQE 嵌入上进行训练。采用标准指标（BLEU、ROUGE、METEOR）评估翻译质量。
消融实验 – 对比：完整词汇 vs. 小词汇、原始 gloss vs. 规范化 gloss、关键点特征 vs. RQE 特征。

实验	BLEU ↑	ROUGE‑L ↑	METEOR ↑
完整数据集（关键点）	21.4	38.7	19.2
完整数据集（RQE）	24.1	41.2	22.0
小词汇（关键点）	18.9	35.4	17.5
小词汇（规范化）	20.6	37.1	19.0

辅助应用 – 开发者现在可以使用已发布的数据集和基线代码快速原型化实时 BdSL‑to‑text 翻译器，加速为孟加拉语聋人用户打造移动或网页通信工具。
迁移学习 – RQE 编码器可在其他手语上进行微调，为多语言手语研究提供可复用组件。
课程设计 – 教育者可利用精挑细选的子集教授机器学习概念（如数据清洗、低资源 NLP），并以具有文化相关性的实例进行教学。
标准化工作 – 规范化的 gloss 为构建孟加拉手语词典提供起点，可用于政府主导的可及性标准制定。