[논문] OmniGameArena: 개선 역학을 갖춘 VLM 게임 에이전트를 위한 통합 UE5 벤치마크
Source: arXiv - 2606.09826v1
Overview
비전‑언어 모델(VLM) 에이전트가 인터랙티브 게임 환경에 점점 더 많이 배치되고 있다. 그러나 기존 게임 벤치마크는 (에이전트, 게임) 쌍당 한 번의 최초 시도 점수만을 보고하고, 단일 에이전트 솔로 플레이에만 초점을 맞추며, 상업용 VLM, 오픈‑웨이트 VLM, 특화된 게임 정책 등 이질적인 에이전트 클래스를 동일한 기준으로 평가할 통합 프로토콜이 부족하다. 우리는 이러한 격차를 메우기 위해 OmniGameArena를 제안한다. OmniGameArena는 통합 행동 인터페이스를 갖춘 12개의 신규 언리얼 엔진 5 기반 게임(솔로 7개, PvP 3개, 협동 2개)으로 구성된 실시간 벤치마크이며, **Improvement Dynamics Curve (IDC)**라는 에이전트 반사 메커니즘을 도입한다. IDC에서는 도구를 사용하는 반사기 LLM이 제한된 스킬 프롬프트를 여러 라운드에 걸쳐 자율적으로 개선한다. 콜드 스타트 리더보드 점수 외에도 IDC는 각 (에이전트, 게임) 쌍에 대해 두 가지 추가 관측값을 제공한다: 반사 라운드가 진행됨에 따라 점수가 어떻게 변하는지, 그리고 학습된 스킬이 미사용 과제 변형에서 어떻게 동작하는지. 우리는 콜드 스타트 리더보드에 대한 12개 VLM 에이전트와 IDC 적용 시 상위 4개 에이전트의 관측값을 보고한다.
Key Contributions
이 논문은 다음 분야의 연구를 제시한다:
- cs.CV (컴퓨터 비전)
- cs.AI (인공지능)
Methodology
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
Practical Implications
본 연구는 컴퓨터 비전 분야의 발전에 기여한다.
Authors
- Mingxian Lin
- Shengju Qian
- Yuqi Liu
- Yi-Hua Huang
- Yiyu Wang
- Wei Huang
- Yitang Li
- Fan Zhang
- Zeyu Hu
- Lingting Zhu
- Xin Wang
- Xiaojuan Qi
Paper Information
- arXiv ID: 2606.09826v1
- Categories: cs.CV, cs.AI
- Published: 2026년 6월 8일
- PDF: Download PDF