[Paper] 从肌肉到文字:MyoText:sEMG 到文字通过指分类和基于 Transformer 的解码
请提供您希望翻译的完整文本(除代码块和 URL 之外的内容),我会按照要求保留源链接并将其余部分翻译成简体中文。
Overview
本文介绍了 MyoText,这是一种新型流水线,可将手部肌肉的表面肌电(sEMG)记录转换为打字文本。该系统首先识别出正在激活的手指,然后使用符合人体工学的打字规则将这些激活映射到字母,最后通过语言模型 Transformer 对输出进行润色。作者实现了显著更高的准确性和可扩展性的 sEMG‑到‑文本系统,为可穿戴设备和混合现实(XR)环境中的真正无键盘交互铺平了道路。
关键贡献
- 层次解码架构 – 将问题拆分为 (1) 手指激活分类,(2) 人体工学引导的字母推断,和 (3) 基于 Transformer 的句子重建。
- CNN‑BiLSTM‑Attention 模型 用于稳健的多通道 sEMG 手指分类,在 30 名参与者中实现 85.4 % 的准确率。
- 人体工学打字先验,根据真实的手指‑键位映射约束字母选择空间,显著降低解码歧义。
- 微调的 T5 Transformer,纠正残余错误并生成流畅句子,达到 5.4 % 的字符错误率 (CER) 和 6.5 % 的词错误率 (WER)——明显优于之前的端到端基线。
- 全面评估 在公开的 emg2qwerty 数据集上进行,展示了可重复性和用户无关的性能。
Methodology
1. Signal Acquisition & Pre‑processing
多通道 sEMG 在用户使用虚拟 QWERTY 布局打字时记录前臂肌肉信号。通过标准的带通滤波和窗口化(≈200 ms 帧)对数据进行预处理,以供神经网络处理。
2. Finger Classification (CNN‑BiLSTM‑Attention)
- CNN:浅层 1‑D CNN 提取电极阵列的空间模式。
- BiLSTM:双向 LSTM 捕捉每个窗口内肌肉激活的时间动态。
- Attention:突出最具信息量的时间步,提高对噪声和用户间差异的鲁棒性。
3. Ergonomic Letter Inference
将预测的手指(例如食指、中指)与 typing prior 结合,该先验编码了每根手指在 QWERTY 键盘上通常能够触及的键位。通过对候选字母进行 softmax 的简单概率映射,得到每帧的可能字符短列表。
4. Transformer‑Based Decoding (T5)
将候选字母序列(包括“无键”帧的空白)输入预训练的 T5 模型,并在相同的 sEMG‑文本对上进行微调。Transformer 利用语言上下文消除歧义、插入缺失的空格并纠正拼写,最终输出完整句子。
这种模块化设计类似于人类打字者的思考过程:首先决定 哪根手指 要移动,然后决定 该手指应敲哪个键,最后确定 句子的意义。
结果与发现
| 指标 | MyoText | 先前最佳基线 |
|---|---|---|
| Finger‑classification accuracy | 85.4 % | ~78 % |
| Character Error Rate (CER) | 5.4 % | 9.8 % |
| Word Error Rate (WER) | 6.5 % | 12.3 % |
- 错误降低:层次化方法相比仅使用端到端 CNN 的模型将 CER 降低约 45 %。
- 用户泛化:在不同参与者之间性能保持稳定,表明模型学习到的是生理相关特征,而非对单一用户的肌肉模式过拟合。
- 消融研究显示,去除人体工学先验或 Transformer 阶段会使 CER/WER 降低超过 2 %,验证了每个组件的贡献。
实际意义
- 无键盘 XR 输入: 开发者可以将 MyoText 嵌入 AR 眼镜或 VR 头显,让用户通过细微的手指肌肉激活“打字”,无需任何实体硬件。
- 辅助技术: 对于手部活动受限的用户,该系统提供一种低疲劳、高精度的替代方案,优于眼动追踪或基于开关的文字输入。
- 可穿戴集成: 该模块化流水线可以在边缘设备上运行(例如微控制器 + 设备端推理加速器),因为重量级语言模型可以被卸载或量化,而 CNN‑BiLSTM 能实时运行。
- 可扩展性: 人体工学先验可以替换为其他布局(如 Dvorak、定制虚拟键盘)或甚至非打字手势,使该框架成为通用的“肌肉到指令”引擎。
限制与未来工作
- 数据集范围: 实验仅限于 emg2qwerty 数据集(30 名参与者,受控打字任务)。真实世界条件——不同的手臂姿势、运动伪影或户外环境——尚未测试。
- 延迟: 当前基于窗口的处理引入了约 200 ms 的适度延迟。将流水线优化至低于 100 ms 的延迟对于流畅的对话式打字至关重要。
- 对其他语言的泛化: 人体工学先验和 T5 微调以英语为中心;扩展到多语言键盘将需要新的先验和语言模型。
- 硬件限制: 高密度 sEMG 阵列提升了准确性,但增加了功耗和体积需求;未来工作应探索稀疏电极布局和传感器端预处理。
总体而言,MyoText 证明了基于生理学的层次解码策略能够弥合原始肌肉信号与自然语言之间的鸿沟,为下一代神经驱动用户界面提供了有力的蓝图。
作者
- Meghna Roy Chowdhury
- Shreyas Sen
- Yi Ding
论文信息
- arXiv ID: 2601.03098v1
- 类别: cs.LG, cs.NE
- 出版日期: 2026年1月6日
- PDF: 下载 PDF