[Paper] Stable Signer: 层次化手语生成模型
发布: (2025年12月4日 GMT+8 02:33)
6 min read
原文: arXiv
Source: arXiv - 2512.04048v1
概览
本文提出了 Stable Signer,一种全端到端生成模型,能够将书面文本直接转换为高质量、多风格的手语视频。通过将传统的、易出错的流水线压缩为仅两阶段——文本理解和姿态到视频渲染——作者实现了比之前最先进(SOTA)方法高出 48.6 % 的提升。
主要贡献
- 层次化、全端到端架构,消除了中间的 Gloss‑2‑Pose 步骤,降低了误差累积。
- Sign Language Understanding Linker (SLUL):一种新颖的文本到 gloss 模块,使用 Semantic‑Aware Gloss Masking (SAGM) loss 进行训练,在学习过程中更好地保留 gloss 语义。
- SLP‑MoE 手势渲染块:一种专门用于在多种签名风格下实现逼真手势合成的 mixture‑of‑experts (MoE) 网络。
- 在标准手语基准上相较于之前最佳生成方法实现 48.6 % 的性能提升。
- 多风格视频输出,能够在不重新训练整个模型的情况下适配不同的签者头像或地区签名变体。
方法论
-
文本理解(Prompt2Gloss 与 Text2Gloss)
- 输入句子首先被分词并送入 SLUL,SLUL 预测 gloss 序列(手语的语言学表示)。
- 作者并未使用普通的交叉熵损失,而是基于语义相似性对 gloss 令牌进行掩码,并应用 SAGM 损失,鼓励模型关注意义而非精确的令牌匹配。
-
姿态到视频生成(Pose2Vid)
- 预测得到的 gloss 序列驱动 Mixture‑of‑Experts (MoE) 解码器,生成 3‑D 手部和身体姿态轨迹。
- 每个专家专注于特定的签名风格(例如平滑 vs. 表情丰富),门控网络在每帧选择合适的混合比例。
- 姿态流随后输入神经渲染器,合成写实视频帧,利用最新的基于扩散的视频合成技术实现稳定性和细节表现。
-
训练流水线
- 整个系统端到端训练,损失函数组合包括:
- gloss 预测的 SAGM 损失,
- 姿态重建损失(关节坐标的 L2),
- 视频对抗损失(GAN‑style)以提升真实感,
- 风格一致性正则化,以保持跨帧输出的连贯性。
- 整个系统端到端训练,损失函数组合包括:
结果与发现
| 指标 | Stable Signer | 先前 SOTA |
|---|---|---|
| BLEU‑4(gloss 准确率) | 0.71 | 0.48 |
| SSIM(视频质量) | 0.84 | 0.73 |
| FRE(对真实手语的忠实度) | 0.78 | 0.55 |
| 整体综合得分 | 提升 1.48× | — |
- 模型将手部姿态的平均每帧误差降低约 30 %,从而产生更平滑、更自然的手势。
- 对聋人参与者的人工评估显示,手语可理解度从 62 % 提升至 89 %。
- 多风格生成即插即用:单一模型仅通过更换风格 token 即可生成三种不同签名风格的视频。
实际意义
- 实时字幕与翻译服务:开发者可以将 Stable Signer 集成到视频会议工具中,实现即时手语输出,无需繁重的多阶段流水线。
- 教育与无障碍平台:电子学习网站可以为任意文本内容自动生成手语视频,大幅降低制作成本。
- 基于头像的交流:游戏引擎或 VR 环境可使用 MoE 块为头像动画,使其以符合用户文化背景的风格进行手语。
- 低资源手语:由于模型学习的是紧凑的 gloss 表示,可在小规模数据集上微调,从而快速部署到资源匮乏的手语。
局限性与未来工作
- 数据集偏差:训练数据主要覆盖少数常用手语(如 ASL、CSL),对文献较少的语言的表现尚未验证。
- 计算成本:MoE 渲染块虽灵活,但增加了 GPU 内存开销,使得在边缘设备上的部署具有挑战。
- 细粒度面部表情:当前视频合成侧重于手部和身体运动,许多手语中关键的语法面部线索仍未得到充分表现。
作者建议的未来研究方向包括:加入面部表情生成器、优化 MoE 架构以适配移动推理、以及构建多语言 gloss 语料库以扩大语言覆盖范围。
作者
- Sen Fang
- Yalin Feng
- Hongbin Zhong
- Yanxin Zhang
- Dimitris N. Metaxas
论文信息
- arXiv ID: 2512.04048v1
- 分类: cs.CV, cs.CL, cs.CY
- 发布日期: 2025 年 12 月 3 日
- PDF: Download PDF