[Paper] DV-World:真实场景下的数据可视化代理基准测试

发布: (2026年4月29日 GMT+8 01:58)
8 分钟阅读
原文: arXiv

Source: arXiv - 2604.25914v1

概览

本文介绍了 DV‑World,一个新的基准,用于让数据可视化(DV)代理面对真实企业环境中会遇到的那种混乱的、多步骤的任务。通过涵盖电子表格编辑、代码驱动的可视化演进以及交互式意图澄清,作者揭示了当前基于大语言模型(LLM)的可视化工具在传统仅沙盒测试中未能发现的不足。

关键贡献

  • 一个包含 260 项任务的套件,覆盖三个真实的 DV 领域:
    1. DV‑Sheet – 原生电子表格操作、图表/仪表盘创建以及错误修复。
    2. DV‑Evolution – 将现有可视化产物适配到新数据,跨多种编程语言/框架。
    3. DV‑Interact – 与用户模拟器进行主动意图对齐,模拟器会生成模糊、不断演化的需求。
  • 混合评估框架,结合:
    • 表值对齐(Table‑value Alignment)用于严格的数值正确性,和
    • MLLM‑as‑a‑Judge 结合基于评分标准的评分,用于语义‑视觉质量评估。
  • 全面基线研究表明,即使是最强大的公开可用大模型(如 GPT‑4‑Turbo、Claude‑3)整体成功率也 < 50 %,凸显出显著的性能差距。
  • 开源发布 数据集、评估脚本和用户模拟器,支持可重复研究和面向工业的开发。

方法论

  1. 任务设计 – 260 个任务中的每一个都对应专业数据可视化工作流中的一步(例如,“在已有的 Excel 图表中添加趋势线”,“将 Python‑Matplotlib 绘图迁移到 D3.js 交互式仪表板”,“澄清用户对销售漏斗可视化的模糊需求”)。
  2. 代理交互 – 代理接收文本提示以及任何必要的制品(电子表格、代码片段、已有可视化)。对于 DV‑Interact,需要与模拟用户进行回合制对话。
  3. 执行环境 – 与仅限沙箱的基准不同,DV‑World 在 real‑world toolchain(通过 COM 调用的 Excel、用于 Python/R 的 Jupyter Notebook、用于 JavaScript 的 Node.js)中运行代理。这迫使代理处理文件 I/O、库导入以及平台特有的细节。
  4. 评估
    • 数值对齐:将生成可视化的底层数据表逐元素与真实数据进行比较,使用基于容差的度量。
    • 语义‑视觉评分:LLM 评审员阅读提示、生成的可视化(或代码)以及评分标准(例如,“图表类型符合意图,坐标轴标注正确,图例存在”),并给出 0–5 的分数。
    • 最终性能为所有任务中上述两项得分的平均值。

结果与发现

模型DV‑SheetDV‑EvolutionDV‑Interact总体
GPT‑4‑Turbo48 %42 %35 %45 %
Claude‑345 %38 %33 %42 %
LLaMA‑2‑70B31 %27 %22 %27 %
  • 数值精度 相对较高(约 70 % 的成功案例),而 语义‑视觉质量 较为落后(约 30 %)。
  • 代理在 DV‑Evolution 上表现最差,因为它们必须跨语言理解并重写代码(Python → R,JavaScript → Vega‑Lite)。
  • DV‑Interact 中,模拟用户的模糊请求导致成功率急剧下降,暴露出意图澄清和对话管理的薄弱。
  • 错误分析显示常见失败包括:
    (a) 处理电子表格公式,
    (b) 安装或导入正确的可视化库,以及
    (c) 在用户意图不明确时未提出澄清性问题。

实际影响

  • 开发者工具 – 基准显示当前基于 LLM 的助手不能被信任自行生成生产级仪表盘。团队应将其视为需要人工监督的 协同驾驶员,尤其是在跨语言重构和需求模糊的情况下。
  • 企业自动化 – 想要自动化报告生成的公司需要投入 领域特定微调 或混合流水线(LLM + 基于规则的验证器),以满足财务或运营团队对精度的要求。
  • 产品路线图 – 可视化平台(如 Tableau、Power BI)可以使用 DV‑World 进行基准测试并改进其 AI 辅助功能,重点提升 意图消歧环境落地(例如直接调用 Excel API)。
  • 开发者教育 – 这些任务可作为工程师学习将 LLM 与数据科学工具链集成的真实练习题,鼓励将自然语言推理与具体 API 使用相结合的思维方式。

局限性与未来工作

  • 领域范围 – DV‑World 目前覆盖电子表格、基于代码的可视化以及模拟对话;尚未包括 GIS 风格的地图、实时流式仪表盘或 VR/AR 可视化。
  • 模拟器真实度 – 用户模拟器遵循预设的歧义模式;真实用户可能表现出更丰富的对话行为,这可能影响代理的性能。
  • 评估偏差 – 依赖 LLM 评审会引入其自身的偏见;未来工作可以为部分任务引入人工专家评分,以校准评分标准。
  • 可扩展性 – 在完整工具链中运行代理计算成本高昂;将基准优化用于大规模评估(例如容器化微环境)仍是一个待解决的工程挑战。

通过揭示这些不足,DV‑World 为下一代能够真正在现代企业的混合、多工具生态系统中运行的数据可视化代理设定了明确的目标。

作者

  • Jinxiang Meng
  • Shaoping Huang
  • Fangyu Lei
  • Jingyu Guo
  • Haoxiang Liu
  • Jiahao Su
  • Sihan Wang
  • Yao Wang
  • Enrui Wang
  • Ye Yang
  • Hongze Chai
  • Jinming Lv
  • Anbang Yu
  • Huangjing Zhang
  • Yitong Zhang
  • Yiming Huang
  • Zeyao Ma
  • Shizhu He
  • Jun Zhao
  • Kang Liu

论文信息

  • arXiv ID: 2604.25914v1
  • 分类: cs.CL
  • 出版日期: 2026年4月28日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 递归多智能体系统

递归或循环语言模型最近作为一种新的扩展轴出现,通过在潜在状态上迭代细化相同的模型计算来加深 …