[Paper] 利用 OpenAI Whisper 表征和注意力池化方法的语音情感识别

发布: (2026年2月6日 GMT+8 02:46)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.06000v1

概述

本文研究了 Whisper — OpenAI 的开源语音转文本模型 — 是否能够作为语音情感识别(SER)的强大特征提取器。通过将 Whisper 的深层声学嵌入与两种新颖的基于注意力的池化层相结合,作者在英语和波斯语情感数据集上实现了最先进的性能,同时保持模型体积足够小,以适用于实时应用。

关键贡献

  • Repurposing Whisper for SER: 展示 Whisper 的编码器输出包含丰富的情感线索,尽管该模型仅针对自动语音识别进行训练。
  • Two attention‑based pooling schemes:
    1. Multi‑head Attentive Average Pooling (MH‑AAP) – 使用多个注意力头对帧级嵌入进行聚合后再取平均。
    2. QKV Pooling – 在 Whisper 嵌入上计算 query、key、value 投影,并执行单步自注意力以生成紧凑的句子级向量。
  • Layer‑wise analysis: 层级分析:表明中间的 Whisper 编码器层(而非最终层)往往提供最具判别力的情感特征,尤其在波斯语上。
  • Lightweight SER pipeline: 轻量级 SER 流水线:在波斯语 ShEMO 基准上使用 Whisper‑Tiny 实现了 2.47 % 的绝对无加权准确率提升,超越了如 HuBERT X‑Large 等更大的模型。
  • Cross‑lingual validation: 跨语言验证:在 IEMOCAP(英语)和 ShEMO(波斯语)上的实验确认了该方法在不同语言间的通用性。

方法论

  1. 特征提取: 将音频录音输入 Whisper(Tiny 或 Small)。模型的 Transformer 编码器会生成一系列 768 维(Tiny)或 1024 维(Small)的帧级嵌入。
  2. 基于注意力的池化:
    • MH‑AAP 将嵌入空间划分为多个头,对每个头的每帧计算软注意力权重,随后对加权帧进行平均,最后将各头拼接。
    • QKV Pooling 将序列投影为查询 (Q)、键 (K) 和值 (V) 矩阵,计算自注意力得分 softmax(QKᵀ/√d),并将其与 V 相乘得到单一的池化向量。
      两种方法都能显著压缩时间维度(数百帧 → 1 个向量),同时保留最与情感相关的信息。
  3. 分类头: 池化向量输入一个简单的前馈网络(两层线性层 + ReLU + dropout),输出情感类别的概率。
  4. 训练与评估: 使用标准交叉熵损失、Adam 优化器,并在验证集上进行早停。实验比较: (a) 不同 Whisper 编码层,(b) Tiny 与 Small 模型大小,(c) 两种池化策略。

结果与发现

数据集Whisper模型池化未加权准确率 (UWA)相对增益(相对于基线)
IEMOCAP (English)SmallQKV71.3 %+1.8 %
ShEMO (Persian)TinyQKV (multi‑head)78.9 %+2.47 % (state‑of‑the‑art)
ShEMO (Persian)TinyMH‑AAP77.4 %+1.9 %
  • 中间层胜出: 对于波斯语,Whisper‑Tiny 的第6‑8层始终优于最后一层,表明早期的声学模式(韵律、音高)比后期针对 ASR 优化的表示更富含情感信息。
  • 池化重要: QKV 池化在降维与性能之间提供了最佳平衡,绝对提升约 1.5 %,优于简单的均值池化。
  • 模型规模与性能: Whisper‑Tiny + QKV 在 ShEMO 上已超越 HuBERT X‑Large(≈ 2 B 参数),凸显所提管道的高效性。

实际意义

  • Edge‑ready SER: 开发者可以在智能手机、可穿戴设备或车载系统上嵌入 Whisper‑Tiny(≈ 39 M 参数)加上轻量级注意力池化器,实现实时情绪检测,而无需庞大的 GPU 资源。
  • 跨语言部署: 由于 Whisper 已在 99+ 种语言上进行训练,同一特征提取器可在仅对池化层和分类器层进行少量微调的情况下复用于新语言,加速多语言 SER 产品的推出。
  • 模块化架构: 注意力池化模块与框架无关(PyTorch、TensorFlow、ONNX),可直接插入现有 ASR 流程,将任何基于 Whisper 的转录服务转变为具备情绪感知的接口。
  • 降低数据收集负担: 通过利用预训练的 ASR 模型,团队可以在相对较小的情绪标注数据集上实现高 SER 精度,减少昂贵的标注工作。
  • 潜在使用场景: 根据来电者情绪调整语调的客服机器人、心理健康监测应用、交互式游戏 NPC,以及用于安全系统的驾驶员状态监测。

限制与未来工作

  • 数据集范围: 实验仅限于 IEMOCAP(英语)和 ShEMO(波斯语)。需要在更广泛的语料库(例如自发语音、嘈杂环境)上进行更广的验证。
  • 情感粒度: 本研究聚焦于分类情感(如快乐、悲伤)。扩展到维度模型(价值‑激活)或混合情感可能提升实际相关性。
  • 时间动态: 池化将整个语句压缩为单一向量,可能丢失对话中情感转变的细粒度时间线索。未来工作可探索层次化或段级注意力。
  • 微调 Whisper: 作者保持 Whisper 冻结状态。将 Whisper 编码器与 SER 目标联合微调可能带来进一步提升,尽管计算成本更高。

总体而言,本文提供了一个有说服力的方案,将最先进的 ASR 模型转化为轻量级、高性能的情感识别器——对任何构建下一代以语音为中心产品的开发者而言,都具有吸引力。

作者

  • Ali Shendabadi
  • Parnia Izadirad
  • Mostafa Salehi
  • Mahmoud Bijankhan

论文信息

  • arXiv ID: 2602.06000v1
  • 分类: cs.AI, cs.CL
  • 发表时间: 2026年2月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »