[Paper] MEGConformer: 基于Conformer的MEG解码器用于鲁棒的语音和音素分类

发布: 4天前 (2025年12月1日 GMT+8 17:25)

6 min read

原文: arXiv

Source: arXiv - 2512.01443v1

概览

本文提出了 MEGConformer，一种基于 Conformer 的紧凑解码器，能够将原始脑磁图（MEG）记录转换为两类基础的语音相关输出：

通过将最先进的 Conformer 架构针对 LibriBrain 2025 PNPL 竞赛使用的高维、306 通道 MEG 数据进行定制，作者实现的性能超越了竞赛基线，并在两项任务中均进入前 10 名。

数据预处理 – 将原始 MEG 记录（306 通道，1 kHz 采样）转换为短时傅里叶谱。对每段记录进行实例级 z‑归一化，以统一传感器统计特性。
投影层 – 通过浅层 1‑D 卷积将 306 通道张量降至低维嵌入（例如 64 通道），同时保持时间分辨率。
Conformer 编码器 – 紧凑的 Conformer（≈4 M 参数）堆叠自注意力、卷积和前馈模块，使模型能够捕获长程时间依赖和局部传感器模式。
任务头部
- 语音检测：二分类头（sigmoid），使用二元交叉熵训练。
- 音素分类：100 类 softmax 头，使用交叉熵并结合逆平方根类别权重，以抵消自然音素频率不平衡。
训练技巧
- MEG‑SpecAugment：在 MEG 频谱图上直接进行随机时间遮蔽和频率遮蔽。
- 动态分组加载器：构建批次时保证 100 种平均音素样本的平衡混合，降低训练过程中的方差。
- 优化：AdamW 优化器配合余弦学习率调度；基于验证集宏观 F1 的早停。

任务	指标（宏观‑F1）	排名
语音检测	88.9 %	前 10
音素分类	65.8 %	前 10

数据集特异性 – 模型针对 LibriBrain 2025 PNPL 数据（干净、朗读语音）进行调优，尚未验证对自发或嘈杂语音的泛化能力。
传感器覆盖 – 当 MEG 系统通道数更少或传感器布局不同（投影层假设 306 通道）时，性能可能下降。
时间分辨率 – 虽然 Conformer 能捕获长程依赖，但当前流水线处理 1 秒窗口，限制了亚音素粒度的捕捉。
作者提出的未来方向 包括：
- 将架构扩展至多模态输入（如同步 EEG）。
- 在大规模未标记 MEG 语料上探索自监督预训练。
- 将模型适配于实时闭环 BCI 控制。