[Paper] StutterFuse:通过 Jaccard 加权度量学习和门控融合缓解口吃检测中的模态崩溃
发布: (2025年12月16日 GMT+8 02:28)
6 min read
原文: arXiv
Source: arXiv - 2512.13632v1
Overview
StutterFuse 是首个检索增强分类器,专为多标签口吃检测设计。通过从非参数记忆库中提取真实临床示例,模型基于参考模式对语音进行分类,而不是尝试记住每一种可能的口吃组合——当多个口吃重叠时,这尤其是一个困难的问题。
关键贡献
- 检索增强分类 (RAC) 用于语言病理 – 在 Conformer 编码器中引入基于记忆的“查找”机制,这是对口吃检测的首次尝试。
- 识别“模态崩溃” – 一种现象,朴素检索会提升召回率但损害精确率,类似回声室效应。
- SetCon 损失 – 一种 Jaccard 加权的度量学习目标,直接优化多标签集合相似度,缓解崩溃。
- 门控混合专家融合 – 动态平衡声学证据与检索到的示例,提升整体决策质量。
- 显著的实证提升 – 在 SEP‑28k 基准上获得加权 F1 为 0.65,超越先前的最先进模型,并展示零样本跨语言鲁棒性。
方法论
- Base Encoder – 一个 Conformer(卷积增强的 Transformer)将原始音频波形处理为高级声学表示。
- Memory Bank – 从训练语料库构建一个非参数化的已标注临床语句(音频 + 标签集)存储。在推理时,编码器使用相似度搜索(例如余弦距离)查询该库,以检索 k 个最相关的示例。
- SetCon Loss – 不使用常规的交叉熵,而是使用基于集合的对比损失进行训练。对于每个训练样本,计算其真实标签集与检索到的邻居标签集之间的 Jaccard 相似度;该损失促使编码器将高 Jaccard 对拉近,将低 Jaccard 对拉远。
- Gated Fusion – 一个轻量级门控网络在每个时间步决定给编码器的声学 logits 与来自检索示例的 logits(视为“软标签”分布)分配多少权重。这种专家混合方法防止模型过度依赖任一来源。
- Training Pipeline – 整个系统(编码器 + 门控)是端到端可微分的;内存库在第一个 epoch 后被冻结,以保持检索的稳定性,同时编码器学习与其对齐。
结果与发现
| Model | Weighted F1 | Precision | Recall |
|---|---|---|---|
| Baseline Conformer (CE) | 0.58 | 0.61 | 0.55 |
| Conformer + naive retrieval | 0.62 | 0.55 | 0.71 |
| StutterFuse (SetCon + Gated Fusion) | 0.65 | 0.63 | 0.68 |
- 模态崩溃得到缓解 – 朴素检索显著提升了召回率,但导致精确率下降;门控融合恢复了两者的平衡。
- 零样本跨语言测试(德语和普通话样本)保持了约 0.60 的 F1,验证了基于记忆的推理能够超出英文训练集进行泛化。
- 消融实验显示,仅使用 SetCon 即可将 F1 提升 +0.03,门控融合在此基础上再提升 +0.02。
实际意义
- 临床决策支持 – 语言治疗师能够获得更可靠的多标签口吃标注,尤其是对于多种不流畅现象共存的复杂语句。
- 低资源语言 – 由于模型依赖检索到的示例而非大量特定语言的训练数据,它可以仅使用少量标注录音就快速适配新语言或方言。
- 边缘部署 – 检索步骤可以预先计算并缓存;门控网络几乎不增加额外开销,使 StutterFuse 能够在设备端或远程医疗应用中实现。
- 超越口吃 – 同样的 RAC + SetCon + 门控融合方案可以迁移到其他多标签音频任务(例如咳嗽分类、情感检测),在这些任务中罕见标签组合是瓶颈。
限制与未来工作
- Memory Scalability – 当前实现存储所有训练示例;要扩展到数百万条录音,需要使用近似最近邻索引或层次化记忆结构。
- Label Granularity – SEP‑28k 词表相对粗糙;更细粒度的口吃类型可能需要更丰富的标注方案,甚至层次化检索。
- Real‑World Noise – 实验在相对干净的临床录音上进行;对背景噪声和远场麦克风的鲁棒性仍需验证。
- User Interaction – 未来版本可以向临床医生展示检索到的示例以进行验证,将系统转变为交互式的“检索增强标注工具”。
StutterFuse 证明,将现代神经编码器与精心设计的检索组件相结合,可以克服病理语音数据稀缺的问题,为更准确、可适应且可解释的检测系统打开了大门。
作者
- Guransh Singh
- Md Shah Fahad
论文信息
- arXiv ID: 2512.13632v1
- 分类: cs.LG
- 出版日期: 2025年12月15日
- PDF: Download PDF