[Paper] MegaChat:合成波斯语问答数据集用于高质量销售聊天机器人评估

发布: (2025年11月29日 GMT+8 01:44)
7 min read
原文: arXiv

Source: arXiv - 2511.23397v1

概览

本文介绍了 MegaChat,这是首个完全合成的波斯语问答(Q&A)数据集,专为评估 Telegram 上的销售聊天机器人而设计——Telegram 是伊朗中小企业广泛使用的平台。通过使用多代理系统自动生成数据,作者展示了一种成本有效的方式来为低资源语言生成真实的对话数据,为更智能、本地化的电商机器人打开了大门。

关键贡献

  • MegaChat 数据集:约 50 万对具有人格感知的波斯语 Q&A 对,全部合成生成。
  • 代理流水线:一种新颖的多代理架构(问题生成器、验证器、精炼器),能够抓取真实的购物频道内容并在无需人工标注的情况下产出高质量对话数据。
  • 先进的 RAG 基线:实现了三种经典检索增强生成(RAG)模型用于对比。
  • 增强型代理 RAG:多查询检索、神经重排序以及人格对齐的响应合成,在 5 个评估频道中有 4 个表现优于传统 RAG。
  • 全面评估:使用 GPT‑5.1 对六个质量维度(相关性、流畅性、事实性、人设一致性、互动性和商业适用性)进行打分。
  • 开源发布:数据集和代码已在 GitHub 上公开,鼓励可复现性和社区扩展。

方法论

  1. 数据抓取 – 系统爬取活跃的 Telegram 购物频道,提取商品列表、FAQ 和用户评论。
  2. 人设建模 – 对每个频道,根据频道元数据和语言风格推断轻量级人设(例如 “友好的精品店卖家”、 “科技装备专家”)。
  3. 多代理生成
    • 问题代理:使用波斯语微调语言模型,根据商品属性和人设线索生成合理的买家提问。
    • 验证代理:检查每个问题的相关性、语法正确性以及与人设的一致性,剔除低质量条目。
    • 精炼代理:改写或扩展问题,以提升多样性和真实感。
  4. 答案合成 – 答案代理进行多查询检索以获取相关商品信息,并使用重排序器挑选最合适的片段,随后生成符合人设的回复。
  5. 评估 – GPT‑5.1 对每对 Q&A 在六个维度上打分;将这些分数聚合,用以比较代理流水线与三种基线 RAG 模型(BM25‑RAG、DPR‑RAG、ColBERT‑RAG)的表现。

结果与发现

模型平均质量得分(满分 10)领先的频道
代理 RAG(MegaChat 流水线)8.24/5(时尚、电子产品、家居用品、化妆品)
BM25‑RAG6.7
DPR‑RAG7.0
ColBERT‑RAG7.1
  • 相关性与人设一致性:得益于人格感知的生成和重排序,代理系统在平均上比最佳基线高出 0.9 分。
  • 可扩展性:完整数据集的生成在单 GPU 节点上约耗时 12 小时,而手工标注同等规模数据需数周。
  • 成本效率:估算的标注成本节约超过 150,000 美元(US $150 K),适用于该规模的数据集。

实际意义

  • 快速机器人原型 – 中小企业可通过在 MegaChat 上微调模型,快速搭建波斯语销售聊天机器人,将开发周期从数月缩短至数天。
  • 领域适配性 – 只需更换来源 Telegram 频道,代理流水线即可迁移到其他垂直领域(如旅游、金融),成为可复用的数据生成引擎。
  • 低资源语言提升 – 证明高质量对话数据不必依赖昂贵的人工作业,推动波斯语及类似语言的 AI 产品发展。
  • 与现有平台集成 – 数据集与 Telegram Bot API 对齐,开发者可直接接入预训练模型,立刻获得人格感知的回复。
  • 未来研究基准 – 提供了标准化的波斯语销售聊天基准,便于公平比较检索增强模型与生成模型。

局限性与未来工作

  • 合成偏差 – 由于数据来源于现有频道内容,任何潜在的偏见或错误信息都可能在数据集中传播。
  • 人设粒度 – 当前的人设较为粗粒度,尚未探索更细致的区分(如地区方言、品牌语调)。
  • 评估范围 – 依赖 GPT‑5.1 打分虽便利,但可能未完全捕捉真实用户满意度;计划开展用户研究。
  • 向多轮对话扩展 – MegaChat 侧重单轮 Q&A,未来工作将拓展至多轮对话流和动态上下文处理。

MegaChat 标志着波斯语电商对话 AI 民主化的重要一步,向开发者提供了即用型数据集和合成数据生成的蓝图,可在其他低资源领域复制使用。

作者

  • Mahdi Rahmani
  • AmirHossein Saffari
  • Reyhane Rahmani

论文信息

  • arXiv ID: 2511.23397v1
  • 分类: cs.CL, cs.AI, cs.MA
  • 发表时间: 2025 年 11 月 28 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »