[论文] ShareChat:野外聊天机器人对话数据集
发布: (2025年12月20日 GMT+8 01:47)
7 min read
原文: arXiv
Source: arXiv - 2512.17843v1
(请提供需要翻译的正文内容,我将为您翻译成简体中文。)
Overview
ShareChat 论文介绍了一个庞大的跨平台真实聊天机器人对话数据集,收集自五大主流 LLM 聊天服务(ChatGPT、Claude、Gemini、Perplexity 和 Grok)。通过保留每个平台的原生 UI 提示——如推理轨迹、引用链接和代码片段——该数据集为研究人员和工程师提供了更丰富的视角,了解用户实际如何与基于 LLM 的助手交互。
关键贡献
- 最大公开的多平台 LLM 聊天语料库:142,808 场对话(≈ 660 k 回合),覆盖五大聊天服务。
- 保留原生界面特性:推理步骤、来源 URL、代码块以及其他 UI‑特定的产物保持完整。
- 广泛的语言覆盖:涉及 101 种语言,反映全球使用情况。
- 扩展的上下文窗口与深度:许多对话超出以往数据集的 2–4 k token 限制,支持对长期记忆和多轮推理的研究。
- 三项示例分析:
- 将对话完整性作为意图满足度的代理指标
- LLM 的引用行为
- 从 2023 年 4 月至 2025 年 10 月的使用模式时间迁移
方法论
- 数据收集 – 使用平台特定的爬虫抓取嵌入或分享聊天记录的公共 URL(例如论坛帖子、社交媒体线程、社区档案)。作者筛选出真实的用户‑助手对话并去除重复项。
- 标准化与标注 – 将每个回合解析为结构化的 JSON 记录,保留:
platform(ChatGPT、Claude 等)turn_id、speaker(user/assistant)content(原始 markdown/文本)metadata(时间戳、语言、UI 元素如 “thought” 块、引用链接、代码块)
- 质量控制 – 结合自动化启发式方法(垃圾信息检测、语言识别)和人工抽样检查,确保数据集反映真实、高质量的交互。
- 分析流水线 – 作者构建轻量脚本来计算对话完整度(用户跟进与结束的比例)、提取引用 URL,并随时间聚合使用统计数据。
结果与发现
- 对话完整性:约 68 % 的对话以用户表达的“谢谢”或“这就解决了”结束,表明满意度较高;其余 32 % 出现后续提问,暗示意图未满足或回复含糊。
- 引用行为:Claude 和 Gemini 在约 45 % 的事实性回答中包含来源链接,而 ChatGPT 和 Perplexity 的引用频率较低(约 20 %)。Grok 几乎不提供引用(< 5 %)。
- 时间趋势:从 2023‑2024 年到 2025 年,代码生成回合占总回合的比例从 12 % 上升至 27 %,显示开发者导向使用的激增。多语言对话也显著增长,2025 年 Hindi、Spanish 和 Arabic 各自突破 5 % 的阈值。
- 上下文长度:平均对话长度达到 4.6 k token,最长超过 30 k token——远超大多数现有基准数据集的限制。
实际意义
- Prompt‑engineering research: 长上下文窗口使得在大规模上测试记忆管理策略、检索增强生成以及链式思考提示成为可能。
- Tooling for developers: IDE 插件或代码助手产品可以在丰富的代码制品部分进行训练,以提升针对特定语言的建议和错误处理模式。
- Compliance & citation auditing: 引用元数据提供了一个真实基准,用于构建必须标注来源的系统(例如法律、医疗、学术助手)。
- Multilingual product rollout: 由于涵盖了 101 种语言,产品团队可以评估本地化缺口,并根据真实使用信号来优先支持语言。
- User‑experience design: 了解哪些 UI 交互(例如“思考”气泡、内联引用)与更高的对话完整度相关,可为下一代聊天界面提供指导。
限制与未来工作
- Public‑URL bias:数据集仅捕获用户选择公开分享的对话,可能会过度代表“有趣”或“成功”的交互,而低估日常或失败尝试的比例。
- Platform coverage:虽然已包含五大主要服务,但新兴或小众的聊天机器人(例如特定领域的助理)未被收录,限制了对更广泛生态系统的泛化能力。
- Temporal cutoff:数据截至 2025 年 10 月;此后模型的快速更新可能会改变引用或代码生成行为。
- Future directions suggested by the authors:
- 增加经用户同意的私有日志,以降低分享偏差
- 扩展至更新的平台以及多模态(图像/视频)交互
- 开发基准任务(如引用验证、长上下文推理),直接利用 ShareChat 的独特特性
作者
- Yueru Yan
- Tuc Nguyen
- Bo Su
- Melissa Lieffers
- Thai Le
论文信息
- arXiv ID: 2512.17843v1
- 分类: cs.CL, cs.AI, cs.HC
- 出版日期: 2025年12月19日
- PDF: Download PDF