[Paper] PPTArena:用于代理式 PowerPoint 编辑的基准

发布: (2025年12月3日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2512.03042v1

Overview

一个名为 PPTArena 的新基准用于评估 AI 代理直接编辑 PowerPoint 幻灯片的能力,依据自然语言指令进行操作。通过聚焦真实场景中的幻灯片修改——文本、图表、表格、动画以及母版样式——PPTArena 超越了仅生成图像‑PDF 或文本‑幻灯片的任务,并同时衡量功能正确性和视觉质量。

Key Contributions

  • PPTArena benchmark:100 套多样化的幻灯片(共 2,125 张)包含 >800 项针对性编辑,覆盖了广泛的 PowerPoint 元素。
  • Dual VLM‑as‑judge evaluation:使用结构差异和渲染后的幻灯片图像,分别给出视觉质量和指令遵循得分。
  • PPTPilot agent:一种结构感知的编辑系统,能够(1)规划语义编辑序列,(2)将任务路由至高级程序化工具或低层 XML 操作,并(3)在每一步迭代验证结果是否满足任务约束。
  • Comprehensive empirical study:PPTPilot 在复合、布局敏感以及跨幻灯片编辑上比领先的专有代理和最先进的视觉语言模型高出 >10 %。
  • Insightful analysis of failure modes:揭示了长时程、文档规模 PPT 编辑仍面临的持续挑战。

Methodology

  1. Dataset construction – 人类标注者为真实的 PowerPoint 幻灯片撰写自然语言编辑指令,并生成对应的“目标”幻灯片。每条编辑针对特定元素(例如 “将第 3 张幻灯片标题的字体大小增大” 或 “将第 7 张幻灯片的柱状图替换为堆叠图”)。
  2. Evaluation pipeline – 两个视觉语言模型充当评审:
    • Instruction‑following score – 通过结构差异(XML 树)分析,将编辑后的幻灯片语义意图与目标进行比较。
    • Visual‑quality score – 渲染前后幻灯片,测量像素级相似度以及感知指标。
  3. PPTPilot architecture
    • Planner 解析指令,生成一系列高层编辑动作(如 modify‑textreplace‑chart)。
    • Router 决定该动作是使用确定性的 XML 编辑(精确控制)还是需要更高层工具(例如通过 VLM 重新生成图表)。
    • Executor 执行选定的操作,更新 PPTX 文件,并将结果反馈给 Planner。
    • Verifier 在每一步后运行双评审管线;若约束被违反,PPTPilot 将重新规划(plan‑edit‑check 循环)。

Results & Findings

SystemOverall PPTArena ScoreCompound‑Edit GainVisual FidelityDeck‑Wide Consistency
PPTPilot78.4 %+12 pp vs. best VLM+15 pp vs. baseline+13 pp vs. proprietary agents
Leading proprietary agent66.1 %
State‑of‑the‑art VLM (single‑pass)63.8 %
  • Compound edits(同一幻灯片上的多项修改)获得最大提升,验证了 plan‑edit‑check 循环的优势。
  • Cross‑slide consistency(例如统一的配色方案)在 PPTPilot 利用母版 XML 编辑时显著提升。
  • 即便是表现最好的代理,在需要 >5 步连续编辑跨多张幻灯片的 long‑horizon tasks 上仍表现不佳,说明在更强的推理和记忆机制方面仍有提升空间。

Practical Implications

  • Enterprise automation – 企业可以将类似 PPTPilot 的代理接入工作流工具(如 Microsoft Teams 机器人),在会议后自动更新幻灯片,节省大量手动编辑时间。
  • Developer APIs – 基准和双评审管线提供了即用型评估框架,供任何构建 PowerPoint 编辑插件或基于 VLM 的助手的开发者使用。
  • Design consistency tools – 通过公开母版 XML 操作,开发者可以构建 “style‑enforcement” 服务,保持大型幻灯片集合的品牌统一性。
  • Rapid prototyping – 初创公司可以即时生成定制化的路演稿:自然语言提示(如 “为 Q1‑Q4 添加时间线图表”)能够可靠地转化为精美幻灯片,无需手工绘制图形。

Limitations & Future Work

  • Scope of assets – PPTArena 目前覆盖标准图表、表格和动画,但未包括嵌入式媒体(视频/音频)或复杂的 SmartArt 对象。
  • Judge reliability – 虽然双 VLM 评审与人工评分高度相关,但仍可能误判细微的美学差异,因而在高风险演示中仍需人工参与的验证。
  • Scalability – plan‑edit‑check 循环会带来额外延迟;优化路由与验证步骤是一个待解决的工程挑战。
  • Generalization – 将该方法扩展到其他 Office 格式(Word、Excel)以及多模态输入(语音 + 草图)是未来研究的有前景方向。

Authors

  • Michael Ofengenden
  • Yunze Man
  • Ziqi Pang
  • Yu‑Xiong Wang

Paper Information

  • arXiv ID: 2512.03042v1
  • Categories: cs.CV, cs.AI
  • Published: December 2, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »