[Paper] PPTArena: 에이전트형 파워포인트 편집을 위한 벤치마크

발행: (2025년 12월 3일 오전 03:59 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.03042v1

Overview

새로운 벤치마크 PPTArena는 AI 에이전트가 자연어 명령에 따라 PowerPoint 데크를 직접 편집하는 능력을 평가합니다. 텍스트, 차트, 표, 애니메이션, 마스터 스타일 등 실제 슬라이드 수정 작업에 초점을 맞춤으로써 PPTArena는 이미지‑→‑PDF 혹은 텍스트‑→‑슬라이드 생성 수준을 넘어 기능적 정확성과 시각적 품질을 동시에 측정합니다.

Key Contributions

  • PPTArena benchmark: 100개의 다양한 슬라이드 데크(총 2,125장)와 800개가 넘는 목표 편집을 포함해 PowerPoint 요소 전반을 포괄합니다.
  • Dual VLM‑as‑judge evaluation: 구조적 diff와 렌더링된 슬라이드 이미지를 이용해 시각 품질 점수와 명령 이행 점수를 별도로 평가합니다.
  • PPTPilot agent: (1) 의미론적 편집 시퀀스를 계획하고, (2) 작업을 고수준 프로그래밍 도구 또는 저수준 XML 연산으로 라우팅하며, (3) 작업 제약조건에 맞게 결과를 반복 검증하는 구조 인식 편집 시스템입니다.
  • Comprehensive empirical study: PPTPilot은 복합, 레이아웃 민감, 슬라이드 간 편집에서 기존 상용 에이전트와 최첨단 비전‑언어 모델을 10 % 이상 앞섭니다.
  • Insightful analysis of failure modes: 장기‑수행, 문서‑규모 PPT 편집에서 지속되는 과제를 강조합니다.

Methodology

  1. Dataset construction – 인간 주석자가 실제 PowerPoint 데크에 대한 자연어 편집 명령을 작성하고, 정답 “목표” 데크를 생성했습니다. 각 편집은 특정 요소를 대상으로 합니다(예: “슬라이드 3의 제목 글꼴 크기를 키워라” 또는 “슬라이드 7의 막대 차트를 누적 차트로 교체해라”).
  2. Evaluation pipeline – 두 개의 비전‑언어 모델이 심판 역할을 수행합니다:
    • Instruction‑following score – 구조적 diff(XML 트리) 분석을 통해 편집된 데크의 의미적 의도가 목표와 얼마나 일치하는지 비교합니다.
    • Visual‑quality score – 전·후 슬라이드를 렌더링하고 픽셀‑레벨 유사도와 지각 메트릭을 측정합니다.
  3. PPTPilot architecture
    • Planner는 명령을 파싱하고 modify‑text, replace‑chart와 같은 고수준 편집 액션 시퀀스를 생성합니다.
    • Router는 액션을 결정합니다. 결정적인 XML 편집(정밀 제어)으로 처리할 수 있으면 그 방법을, 차트 재생성처럼 VLM이 필요한 경우 고수준 도구를 선택합니다.
    • Executor는 선택된 작업을 적용해 PPTX 파일을 업데이트하고 결과를 Planner에 반환합니다.
    • Verifier는 각 단계 후에 dual‑judge 파이프라인을 실행합니다. 제약이 위배되면 PPTPilot은 계획을 수정하고(plan‑edit‑check 루프) 다시 시도합니다.

Results & Findings

SystemOverall PPTArena ScoreCompound‑Edit GainVisual FidelityDeck‑Wide Consistency
PPTPilot78.4 %+12 pp vs. best VLM+15 pp vs. baseline+13 pp vs. proprietary agents
Leading proprietary agent66.1 %
State‑of‑the‑art VLM (single‑pass)63.8 %
  • Compound edits(동일 슬라이드에 여러 변경)에서 가장 큰 향상이 나타났으며, 이는 plan‑edit‑check 루프의 효과를 입증합니다.
  • Cross‑slide consistency(예: 통일된 색상 체계)는 PPTPilot이 마스터‑슬라이드 XML 편집을 활용할 때 크게 개선됩니다.
  • 최고 성능 에이전트조차도 long‑horizon tasks(5개 이상의 순차 편집을 필요로 하는 다수 슬라이드)에서 여전히 어려움을 겪으며, 보다 견고한 추론 및 메모리 메커니즘이 필요함을 보여줍니다.

Practical Implications

  • Enterprise automation – 기업은 PPTPilot‑style 에이전트를 Microsoft Teams 봇 등 워크플로우 도구에 연결해 회의 후 데크를 자동 업데이트함으로써 수작업 편집 시간을 크게 절감할 수 있습니다.
  • Developer APIs – 벤치마크와 dual‑judge 파이프라인은 PowerPoint 편집 플러그인이나 VLM 기반 어시스턴트를 개발하는 모든 사람에게 바로 사용할 수 있는 평가 하네스를 제공합니다.
  • Design consistency tools – 마스터‑슬라이드 XML 작업을 노출함으로써 개발자는 대규모 슬라이드 컬렉션 전반에 걸쳐 브랜드 일관성을 유지하는 “스타일‑강제” 서비스를 구축할 수 있습니다.
  • Rapid prototyping – 스타트업은 “Q1‑Q4 일정 차트를 추가해라”와 같은 자연어 프롬프트만으로도 손수 그래픽을 만들 필요 없이 즉시 다듬어진 슬라이드를 생성할 수 있습니다.

Limitations & Future Work

  • Scope of assets – PPTArena는 현재 표준 차트, 표, 애니메이션을 다루지만 삽입된 미디어(동영상/오디오)나 복잡한 SmartArt 객체는 포함하지 않습니다.
  • Judge reliability – dual VLM 심판은 인간 평점과 높은 상관관계를 보이지만 미묘한 미적 뉘앙스를 오판할 수 있어, 중요한 프레젠테이션에서는 인간‑인‑루프 검증이 필요합니다.
  • Scalability – plan‑edit‑check 루프는 추가 지연을 초래하므로 라우팅 및 검증 단계 최적화가 남은 과제입니다.
  • Generalization – 이 접근법을 Word, Excel 등 다른 오피스 포맷 및 음성+스케치와 같은 다중모달 입력으로 확장하는 것이 향후 연구의 유망한 방향입니다.

Authors

  • Michael Ofengenden
  • Yunze Man
  • Ziqi Pang
  • Yu‑Xiong Wang

Paper Information

  • arXiv ID: 2512.03042v1
  • Categories: cs.CV, cs.AI
  • Published: December 2, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…