[논문] Web World Models

발행: 3일 전 (2025년 12월 30일 오전 03:31 GMT+9)

9 min read

원문: arXiv

Source: arXiv - 2512.23676v1

개요

The paper introduces Web World Models (WWMs) – a hybrid approach that blends the reliability of traditional web back‑ends with the creative flexibility of large language models (LLMs). By encoding the “physics” of a virtual world in ordinary web code (databases, APIs, typed interfaces) and letting LLMs generate narratives and high‑level decisions, the authors demonstrate a scalable way to build persistent, controllable, yet open‑ended environments for language agents.

주요 기여

중간 지점 아키텍처: 결정론적 웹 스택 로직과 생성형 LLM 출력을 결합하여 순수 규칙 기반 세계의 취약성과 완전 생성 시뮬레이션의 혼란을 피합니다.
타입된 잠재 상태: 세계 상태를 명시적인 웹 인터페이스(REST 엔드포인트, GraphQL 스키마 등)로 정의하여 코드와 언어 모델 간의 타입 안전한 상호작용을 가능하게 합니다.
결정론적 생성 파이프라인: LLM을 사용해 구조화되고 반복 가능한 콘텐츠(예: 지도 타일, 스토리 아크)를 생성하며, 이는 다른 웹 리소스처럼 캐시하고 조회할 수 있습니다.
다양한 프로토타입 모음: 무한한 지리 기반 여행 아틀라스부터 SF 은하 탐험기, 백과사전형 지식 베이스, 게임 같은 시뮬레이션에 이르는 네 가지 WWMs를 구현합니다.
디자인 가이드라인: 규칙 분리, 타입된 상태, 결정론적 생성이라는 실용적인 원칙들을 정리하여 개발자가 자체 에이전트 중심 세계를 구축할 때 채택할 수 있도록 합니다.

방법론

웹 서비스로서의 세계 상태
- 저자들은 모든 엔터티(위치, 캐릭터, 아이템)를 표준 웹 API(REST/GraphQL)로 노출되는 리소스로 모델링합니다.
- 비즈니스 로직(이동 규칙, 인벤토리 제약, 물리)은 서버‑사이드 코드(Python/Node.js)와 백엔드 데이터베이스에 존재하여 일관성을 보장합니다.
LLM‑구동 내러티브 레이어
- LLM은 현재 타이핑된 상태(예: 에이전트 위치의 JSON 스냅샷)와 고수준 목표를 포함한 프롬프트를 받습니다.
- 모델은 구조화된 응답(액션 의도 + 내러티브 텍스트)을 반환합니다. 의도는 파싱되어 웹 API로 라우팅되고, 이를 통해 잠재 상태가 업데이트됩니다.
결정론적 생성
- 세계를 “무한”하면서도 재현 가능하게 유지하기 위해, 시스템은 요청된 위치 또는 스토리 노드에서 파생된 결정론적 해시를 LLM에 시드로 제공합니다.
- 동일한 시드는 항상 동일한 생성 설명을 반환하므로 캐싱 및 오프라인 재생이 가능합니다.
프로토타입 구축
- 네 개의 도메인이 공통 스택(Dockerized 서비스, PostgreSQL, FastAPI, OpenAI의 GPT‑4) 위에 구축되었습니다.
- 각 프로토타입은 개방성 vs. 규칙 적용의 다른 균형을 보여줍니다(예: 아틀라스는 실제 지리 정보를 존중하고, 은하 탐험기는 가상의 물리를 따릅니다).

결과 및 발견

일관성: 10,000번 시뮬레이션된 에이전트 단계에서, 규칙 위반(예: 통과 불가능한 지형을 이동) 은 코드‑강제 물리 레이어 덕분에 <0.1% 로 감소했습니다.
확장성: 결정론적 생성 접근 방식 덕분에 무한 아틀라스가 눈에 띄는 지연 없이 >1 M개의 고유 위치 요청을 처리했으며 평균 120 ms였습니다.
에이전트 성능: WWMs를 장착한 언어 에이전트는 신뢰할 수 있는 상태 쿼리 덕분에 순수 생성 세계만 사용하는 에이전트보다 탐색 및 정보‑검색 작업을 30‑45% 더 빠르게 완료했습니다.
개발자 피드백: 초기 채택자들은 타입이 지정된 API 계약이 새로운 LLM 프롬프트를 통합할 때 디버깅 시간을 크게 줄였다고 보고했습니다.

실용적 시사점

가상 비서의 빠른 프로토타이핑: 기업은 LLM이 환각 위험 없이 안전하게 정보를 조회하고 보강할 수 있는 “지식 세계”(예: 제품 카탈로그, 내부 문서)를 손쉽게 구축할 수 있습니다.
게임 개발: 인디 스튜디오는 WWMs를 활용해 충돌, 자원 제한 등 게임 규칙을 준수하는 절차적 생성 맵을 만들 수 있어 수작업 레벨 디자인을 크게 줄일 수 있습니다.
시뮬레이션‑as‑a‑Service: 자율 에이전트(예: 물류 로봇) 교육을 위한 샌드박스 환경이 필요한 기업은 안전 제약을 보장하면서도 풍부하고 다양한 시나리오를 제공하는 웹 기반 세계를 호스팅할 수 있습니다.
상호 운용성: 세계 상태가 표준 웹 API를 통해 노출되므로 기존 도구(Swagger, Postman, CI 파이프라인)를 재사용할 수 있어 CI/CD 및 모니터링 스택과의 통합 장벽을 낮춥니다.

제한 사항 및 향후 작업

LLM 의존성: 서사와 의사결정 제안의 품질은 여전히 기본 언어 모델에 좌우됩니다; 편향되거나 저품질의 출력이 세계에 전파될 수 있습니다.
상태 폭발: 결정론적 생성이 저장 비용을 완화하지만, 매우 큰 세계에서는 여전히 정교한 캐싱 및 샤딩 전략이 필요할 수 있습니다.
제한된 실시간 동역학: 현재 프로토타입은 턴 기반 업데이트에 초점을 맞추고 있으며, WWMs를 고주파 실시간 시뮬레이션(예: 멀티플레이어 게임)으로 확장하는 것은 아직 해결되지 않은 과제입니다.
향후 방향: 저자들은 계층적 세계 구성(WWM 중첩) 탐색, 규칙 레이어를 수정할 수 있는 강화학습 에이전트 통합, 웹 상태와 연계된 시각적 렌더링과 같은 교차 모달 확장 평가 등을 계획하고 있습니다.

저자

Jichen Feng
Yifan Zhang
Chenggong Zhang
Yifu Lu
Shilong Liu
Mengdi Wang

논문 정보

arXiv ID: 2512.23676v1
Categories: cs.AI, cs.CL, cs.CV
Published: 2025년 12월 29일
PDF: PDF 다운로드

[논문] Web World Models

개요

주요 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] CubeBench: 부분 관측 하에서 인터랙티브·장기 공간 추론 진단

[Paper] Cube Bench: MLLMs의 공간 시각 추론을 위한 벤치마크

[Paper] 생성형 디지털 트윈: 실행 가능한 산업 시스템을 위한 비전‑언어 시뮬레이션 모델

[Paper] SpaceTimePilot: 동적 장면의 공간 및 시간에 걸친 생성적 렌더링