[Paper] 中文形态消歧在电商直播场景中的研究

发布: (2025年12月29日 GMT+8 16:04)
7 min read
原文: arXiv

Source: arXiv - 2512.23280v1

请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。

概述

本文针对中国电商生态系统中迅速蔓延的一项新型真实世界问题进行研究:直播主持人故意 morph(即误读或伪装)产品名称和健康声明,以逃避平台审核。作者将其形式化为 Live Auditory Morph Resolution (LiveAMR) 任务,发布了近 87 K 条标注音频片段的大规模数据集,并展示了将该问题转化为文本到文本生成任务——并结合大型语言模型(LLMs)生成的合成数据——能够构建实用的检测流水线。

关键贡献

  • LiveAMR 任务定义 – 首次对健康相关电商直播中的基于发音的变形检测进行形式化。
  • LiveAMR 数据集 – 收集了 86,790 条音频‑文本对,来源于抖音等热门中文平台,涵盖多种变形手段。
  • 任务重新表述 – 将变形检测转化为 文本到文本生成 问题(输入:ASR 转录;输出:纠正后的“规范”短语)。
  • LLM 驱动的数据增强 – 使用类似 GPT‑4 的模型合成真实的变形示例,在无需昂贵人工标注的情况下提升训练数据。
  • 实证验证 – 证明基于生成的方法优于传统的分类和序列标注基线,并且变形纠正能够提升下游审核的准确率。

方法论

  1. 数据收集与标注

    • 从抖音的健康/医疗频道抓取直播录音。
    • 使用自动语音识别(ASR)获取原始转录文本。
    • 人工标注员将每句话标记为变形干净,并为变形情况提供预期的“规范”短语。
  2. 任务重新表述

    • 与二分类不同,模型接收嘈杂的ASR转录文本,并被要求生成纠正后的短语。
    • 这与编码器‑解码器大型语言模型在文本到文本任务(如翻译、摘要)上的最新成功相吻合。
  3. 模型架构

    • 基础模型:中文预训练的编码器‑解码器模型(例如 mT5‑large)。
    • 在 LiveAMR 数据集上进行微调,使用标准的 seq2seq 损失。
  4. 基于 LLM 的数据增强

    • 通过以下方式提示强大的 LLM 生成合成的变形示例:
      • 提供一个干净的短语。
      • 要求模型使用典型的规避模式(例如同音字、声调交换、插入填充音)对其进行“变形”。
    • 向训练数据中加入约 20 万对合成样本,平衡干净与变形实例。
  5. 评估

    • 评估指标:生成短语的精确匹配(Exact Match, EM)、基于 token 级别纠正的 F1,以及当生成的短语被送入基于规则的违规检测器时的下游审核召回率/精确率。

Results & Findings

ModelExact MatchToken‑F1Downstream Recall ↑Downstream Precision ↑
基线分类器(二元)68.2 %71.5 %
Seq2Seq(无增强)62.4 %78.1 %74.9 %77.3 %
Seq2Seq + LLM 增强71.8 %84.6 %81.5 %83.2 %
  • 基于生成的方法 将误报率(漏检)降低了超过 13 %,相较于纯分类器。
  • 添加合成形态(synthetic morphs)提升了生成质量和下游审核性能,验证了 LLM 能可靠地模拟人类的变形策略。
  • 错误分析显示,仍然存在对极短语句和强背景噪声流的处理挑战。

实际影响

  • 平台审核流水线 可以将模型集成为 前置处理器:原始 ASR → 校正后的短语 → 现有基于规则或机器学习的违规检测器。这样可以在不改动下游组件的情况下提升检测率。
  • 开发者友好的 API – 作者提供了一个轻量级推理服务(REST + gRPC),接受音频片段,先执行 ASR,再运行 seq2seq 形态解析器,返回标准化文本。
  • 可扩展到其他语言和领域 – 同样的 “文本‑到‑文本” 重构方式可以适配英文直播(例如 TikTok 上的 “pharma‑hype”)或其他规避手段,如视觉水印去除。
  • 成本效益高的数据扩展 – 使用大语言模型生成对抗样本,降低了大规模人工标注的需求,这一模型可以复制到任何新出现的审核问题中。

限制与未来工作

  • ASR 依赖 – 初始语音转录中的错误会传播到生成阶段;仍需改进噪声直播流的 ASR。
  • 领域特定性 – 数据集聚焦于健康/医疗声明;其他产品类别的形态模式可能不同,需要进行领域特定的微调。
  • 合成真实感差距 – 虽然 LLM 生成的变体多样,但可能无法捕捉人类即兴的全部细微差别(例如地区口音、自然的填充词)。未来工作可以涉及 人机交互 生成或与主播的对抗训练。
  • 实时约束 – 当前推理延迟(约 300 毫秒/5 秒片段)对批量审核来说是可接受的,但可能需要针对直播的亚秒级标记进行优化。

作者

  • Jiahao Zhu
  • Jipeng Qiang
  • Ran Bai
  • Chenyu Liu
  • Xiaoye Ouyang

论文信息

  • arXiv ID: 2512.23280v1
  • 类别: cs.CL
  • 发表日期: 2025年12月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »