[Paper] DV-World：真实场景下的数据可视化代理基准测试

发布: 19小时前 (2026年4月29日 GMT+8 01:58)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.25914v1

概览

本文介绍了 DV‑World，一个新的基准，用于让数据可视化（DV）代理面对真实企业环境中会遇到的那种混乱的、多步骤的任务。通过涵盖电子表格编辑、代码驱动的可视化演进以及交互式意图澄清，作者揭示了当前基于大语言模型（LLM）的可视化工具在传统仅沙盒测试中未能发现的不足。

一个包含 260 项任务的套件，覆盖三个真实的 DV 领域：
1. DV‑Sheet – 原生电子表格操作、图表/仪表盘创建以及错误修复。
2. DV‑Evolution – 将现有可视化产物适配到新数据，跨多种编程语言/框架。
3. DV‑Interact – 与用户模拟器进行主动意图对齐，模拟器会生成模糊、不断演化的需求。
混合评估框架，结合：
- 表值对齐（Table‑value Alignment）用于严格的数值正确性，和
- MLLM‑as‑a‑Judge 结合基于评分标准的评分，用于语义‑视觉质量评估。
全面基线研究表明，即使是最强大的公开可用大模型（如 GPT‑4‑Turbo、Claude‑3）整体成功率也 < 50 %，凸显出显著的性能差距。
开源发布 数据集、评估脚本和用户模拟器，支持可重复研究和面向工业的开发。

任务设计 – 260 个任务中的每一个都对应专业数据可视化工作流中的一步（例如，“在已有的 Excel 图表中添加趋势线”，“将 Python‑Matplotlib 绘图迁移到 D3.js 交互式仪表板”，“澄清用户对销售漏斗可视化的模糊需求”）。
代理交互 – 代理接收文本提示以及任何必要的制品（电子表格、代码片段、已有可视化）。对于 DV‑Interact，需要与模拟用户进行回合制对话。
执行环境 – 与仅限沙箱的基准不同，DV‑World 在 real‑world toolchain（通过 COM 调用的 Excel、用于 Python/R 的 Jupyter Notebook、用于 JavaScript 的 Node.js）中运行代理。这迫使代理处理文件 I/O、库导入以及平台特有的细节。
评估 –
- 数值对齐：将生成可视化的底层数据表逐元素与真实数据进行比较，使用基于容差的度量。
- 语义‑视觉评分：LLM 评审员阅读提示、生成的可视化（或代码）以及评分标准（例如，“图表类型符合意图，坐标轴标注正确，图例存在”），并给出 0–5 的分数。
- 最终性能为所有任务中上述两项得分的平均值。

模型	DV‑Sheet	DV‑Evolution	DV‑Interact	总体
GPT‑4‑Turbo	48 %	42 %	35 %	45 %
Claude‑3	45 %	38 %	33 %	42 %
LLaMA‑2‑70B	31 %	27 %	22 %	27 %

开发者工具 – 基准显示当前基于 LLM 的助手不能被信任自行生成生产级仪表盘。团队应将其视为需要人工监督的 协同驾驶员，尤其是在跨语言重构和需求模糊的情况下。
企业自动化 – 想要自动化报告生成的公司需要投入 领域特定微调 或混合流水线（LLM + 基于规则的验证器），以满足财务或运营团队对精度的要求。
产品路线图 – 可视化平台（如 Tableau、Power BI）可以使用 DV‑World 进行基准测试并改进其 AI 辅助功能，重点提升 意图消歧 和 环境落地（例如直接调用 Excel API）。
开发者教育 – 这些任务可作为工程师学习将 LLM 与数据科学工具链集成的真实练习题，鼓励将自然语言推理与具体 API 使用相结合的思维方式。

通过揭示这些不足，DV‑World 为下一代能够真正在现代企业的混合、多工具生态系统中运行的数据可视化代理设定了明确的目标。