[Paper] ClarifyMT-Bench:对话大型语言模型的多轮澄清基准测试与改进

发布: (2025年12月24日 GMT+8 19:39)
7 min read
原文: arXiv

Source: arXiv - 2512.21120v1

Overview

本文介绍了 ClarifyMT‑Bench,一个新的基准,用于评估对话式大型语言模型(LLMs)在用户提供不完整或模糊输入时,处理多轮澄清的能力。通过展示系统性的歧义分类法和真实的用户角色,作者揭示了当前模型中普遍存在的“澄清不足”偏差,并提出了一个模块化代理 ClarifyAgent,使 LLM 在回答之前提出正确的后续问题。

关键贡献

  • 五维歧义分类法(语义、上下文、意图、知识和过程),捕捉用户话语可能不明确的主要方式。
  • 六种模拟用户角色(例如:急躁、合作、回避),生成多样的对话流程,以对 LLM 行为进行压力测试。
  • ClarifyMT‑Bench 数据集:通过混合 LLM‑人工流水线创建的 6,120 条多轮对话,每条都标注了歧义来源及最佳澄清策略。
  • 全面评估 十种流行 LLM(包括 GPT‑4、Claude、Llama 2 等),发现它们普遍倾向于过早作答,并且随着对话深度增加性能下降。
  • ClarifyAgent:一种代理框架,将澄清过程分解为感知、预测、追踪和规划四个阶段,在所有歧义维度上实现显著提升。
  • 开源发布 基准、评估脚本以及 ClarifyAgent 代码库,以促进可复现性和后续研究。

方法论

  1. 歧义分类设计 – 作者调查了已有研究和真实聊天记录,以定义五个正交的歧义轴。
  2. 基于角色的对话生成 – 为六种用户角色编写了具有不同交互风格的脚本。使用大型语言模型(GPT‑4)生成初始用户发言,然后由人工标注者进行润色,以确保真实感。
  3. 人机混合流水线 – 人类审稿人验证了LLM生成的澄清问题和答案,确保每段对话都包含明确的“最佳”澄清点。
  4. 基准构建 – 为每段对话标注:(a) 歧义类型,(b) 应进行澄清的轮次,(c) 参考的澄清问答对。
  5. 评估协议 – 让模型继续对话;评估指标包括 澄清准确率(模型是否提出了正确的问题?),过早回答率,以及 对话成功率(最终答案的正确性)。
  6. ClarifyAgent 架构 – 该代理首先 感知 用户的发言(检测歧义),预测 可能的用户意图,跟踪 跨轮次的对话状态,最后 规划 最优的澄清动作(提问或回答)。每个模块都实现为轻量级的微调 transformer,可插入现有的 LLM 流程中。

结果与发现

模型过早回答率澄清准确率对话成功率
GPT‑4 (baseline)38%54%61%
Claude‑242%49%58%
Llama 2‑13B61%31%44%
ClarifyAgent + GPT‑412%84%89%
  • 不足澄清偏差:所有十个模型在 >30 % 的案例中过早作答,且随着对话轮次超过三轮,这一偏差会加剧。
  • 歧义敏感性:语义和意图歧义导致最高的过早回答率,而程序性歧义则更容易被模型检测到。
  • ClarifyAgent 的影响:通过明确分离感知和规划,该代理将过早回答率降低至多 75 %,并将整体成功率提升至接近人类水平的基准。

实际影响

  • 更好的客服机器人 – 部署 ClarifyAgent 风格的流水线可以防止机器人猜测用户意图,减少误路由和昂贵的升级。
  • 开发者工具 – IDE 助手(例如代码生成聊天机器人)可以使用该分类法标记模糊的提示(“你说的‘优化此函数’是什么意思?”),在生成可能有害的代码之前进行提示。
  • 产品设计 – 人格框架帮助产品团队在质量保证期间模拟边缘案例用户行为(不耐烦或回避的用户),从而实现更健壮的对话用户体验。
  • 合规与安全 – 早期澄清降低了大型语言模型在受监管领域(金融、医疗)提供不正确或不安全答案的风险。
  • 即插即用集成 – ClarifyAgent 的模块化设计意味着现有的 LLM 服务可以通过轻量级的澄清层进行包装,而无需重新训练基础模型。

限制与未来工作

  • Synthetic Users – 虽然经过人工验证,但对话仍然依赖于模拟角色;需要进行真实用户研究以确认外部有效性。
  • Scalability of Modules – 四阶段代理会增加推理延迟;未来工作应探索联合训练或蒸馏,以保持响应时间低。
  • Ambiguity Coverage – 五维分类法可能遗漏特定领域的歧义(例如法律术语);通过社区贡献扩展该分类法是一个可行方向。
  • Cross‑Language Evaluation – 目前的基准仅限英文;将 ClarifyMT‑Bench 适配到多语言环境对于全球部署至关重要。

ClarifyMT‑Bench 提供了一个具体且可复现的衡量标准,适用于下一代对话式 AI——它能够在回答前先提问。渴望构建更可靠聊天助手的开发者现在拥有了诊断工具和已验证的解决方案 ClarifyAgent

作者

  • Sichun Luo
  • Yi Huang
  • Mukai Li
  • Shichang Meng
  • Fengyuan Liu
  • Zefa Hu
  • Junlan Feng
  • Qi Liu

论文信息

  • arXiv ID: 2512.21120v1
  • 分类: cs.CL, cs.IR
  • 出版日期: 2025年12月24日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »