[Paper] Spoken DialogSum:用于口语对话摘要的情感丰富的对话数据集

发布: (2025年12月17日 GMT+8 02:54)
7 min read
原文: arXiv

看起来您只提供了来源链接,而没有要翻译的正文内容。请您把需要翻译的文本(例如摘要、章节或其他段落)贴在这里,我会按照要求保留来源链接并进行简体中文翻译。

Overview

本文介绍了 Spoken DialogSum,这是首个大规模数据集,将原始对话音频与两种摘要——事实型摘要和情感丰富型摘要——配对,同时提供了发言人年龄、性别和情感的句子级别标注。通过桥接语音、文本和副语言线索,作者使端到端音频语言模型(Audio‑LLMs)能够生成既保留内容又保留口语对话情感基调的摘要。

关键贡献

  • 一种新颖的多模态语料库:13,460 段口语对话,使用富有表现力的 TTS 合成,每段链接到 (a) 事实摘要,(b) 情感聚焦摘要,和 (c) 细粒度的说话人/话语元数据(年龄、性别、情感、音高、语速)。
  • 两阶段数据创建流水线
    1. 基于 LLM 的重写 DialogSum 文本语料库,以注入自然的填充词、反馈声和情感标签。
    2. 高保真富有表现力的 TTS,将标注脚本渲染为与副语言标签对齐的音频。
  • 基准基线:比较级联的 ASR‑LLM 流水线与统一的 Audio‑LLM,使用端到端模型时情感丰富摘要的 ROUGE‑L 相对提升 28 %
  • 开源发布:数据集、音频样本和代码公开可用,鼓励可复现性和下游研究。

方法论

  1. 脚本丰富:作者从已有的 DialogSum 文本数据集出发。使用大型语言模型(LLM)改写每个对话脚本,插入 Switchboard 风格的现象(例如 “uh‑mm”、 “yeah”、 “right”),并为每句话标注情感标签(如 快乐、悲伤、愤怒)。
  2. 副语言标记:对每句话,基于所分配的情感生成额外的声学属性——音高轮廓和语速,确保合成语音能够体现预期的情感。
  3. 表达式文本转语音:利用最先进的表达式 TTS 引擎,将带标注的脚本转换为高质量音频。TTS 系统以情感和声学标签为条件,使语音在语调、腔调和速度上自然变化。
  4. 摘要目标:为每段对话创建两个参考摘要:一个 事实性 摘要(仅包含内容),以及一个 情感丰富 摘要(明确提及情感状态)。
  5. 模型评估:测试两种基线方法:
    • 级联:自动语音识别(ASR)→ 文本‑LLM 摘要生成器。
    • 端到端音频‑LLM:直接输入音频并生成摘要。
      性能通过 ROUGE‑L 指标以及情感保留的定性评估进行衡量。

结果与发现

  • Audio‑LLM 在情感丰富的摘要任务上优于级联流水线,实现了 ROUGE‑L 提升 28% 的相对改进(并在情感召回率上有显著提升)。
  • 对于事实性摘要,两系统之间的差距缩小,表明端到端建模的主要优势在于保留那些在 ASR 转录中常被丢失的情感线索。
  • 人类评估证实,Audio‑LLM 的摘要更好地捕捉了说话者的情绪和细微的对话动态(例如讽刺、兴奋)。
  • 该数据集本身对训练需要将声学特征与文本情感对齐的模型非常有用,为多模态情感分析和共情 AI 开辟了新途径。

实际意义

  • 客户服务自动化:基于语音的代理可以生成通话后摘要,突出问题以及来电者的情绪状态,从而实现更个性化的跟进。
  • 会议转录工具:端到端摘要器可以生成会议纪要,标记紧张或热情的时刻,帮助团队优先处理行动项。
  • 可及性:对于听障用户,情感感知字幕可以传达语音内容背后的情感,提高理解力。
  • 内容审核与分析:媒体监控平台可以自动标记播客或呼叫中心录音中情绪强烈的片段,以供进一步审查。
  • 训练具同理心的对话代理:开发者可以在 Spoken DialogSum 上微调对话系统,以更好地实时识别并响应用户情绪。

限制与未来工作

  • 合成音频:虽然表达式 TTS 质量很高,但数据集依赖合成语音,可能无法捕捉自然人类韵律和背景噪音的所有细微差别。
  • 情感分类法:本研究使用了一套有限的粗粒度情感类别;更细粒度的情感状态(例如挫折感与愤怒)仍未探讨。
  • 对真实录音的可扩展性:未来工作应在嘈杂的真实对话录音上验证 Audio‑LLM 的性能,并研究领域适应技术。
  • 多语言扩展:当前语料库仅限英文;将管线扩展到其他语言将扩大适用范围。

Spoken DialogSum 开辟了情感感知语音摘要的新前沿,为开发者提供了现成资源,以构建更具同理心、上下文丰富的语音应用。

作者

  • Yen-Ju Lu
  • Kunxiao Gao
  • Mingrui Liang
  • Helin Wang
  • Thomas Thebaud
  • Laureano Moro-Velazquez
  • Najim Dehak
  • Jesus Villalba

论文信息

  • arXiv ID: 2512.14687v1
  • 分类: cs.CL, cs.AI, cs.LG, eess.AS
  • 发布: 2025年12月16日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »