트릴리온랩스, 모바일 월드모델 ‘gWorld-32B’ 공개… 코드 기반 화면 예측
Source: Platum

Overview
AI 모델 스타트업 트릴리온랩스가 모바일 환경에서 사용자의 행동 결과를 시뮬레이션하는 월드모델 gWorld‑32B를 개발했다. 모바일 환경에 특화된 월드모델을 공개한 것은 이번이 처음이다.
Technical Details
- 월드모델: AI 에이전트가 특정 행동을 하기 전 그 결과를 시각적·논리적으로 시뮬레이션하는 기술.
- gWorld‑32B: 모바일 환경에서 사용자의 터치 입력을 바탕으로 이후 화면 상태를 실시간으로 예측·재현한다.
- 기존 월드모델은 화면을 이미지(픽셀) 단위로 생성해 글자 뭉개짐·형태 왜곡이 발생했지만, gWorld‑32B는 실행 가능한 웹 코드(HTML·CSS) 형태로 예측한다.
- 화면 사진을 전송하는 대신 설계도에 해당하는 코드를 생성해 실시간 렌더링을 유도한다.
- 렌더링 실패율을 1 % 미만으로 낮추고, 텍스트와 아이콘을 왜곡 없이 유지하는 정확도를 확보했다.
Performance
- 매개변수 규모가 50배 이상 큰 Meta의 Llama‑4‑402B를 상회하는 GUI 예측 성능을 기록.
- 한국어 모바일 앱 조작 성능 평가 지표인 KApps에서도 별도 추가 학습 없이 바로 작동하는 Zero‑shot 성능을 구현, 국내 모바일 앱 생태계와 UI 구조에 대한 적용 가능성을 확인했다.
Applications
gWorld‑32B는 다음과 같은 분야에 활용될 수 있다.
- 모바일 에이전트
- 앱 자동 테스트
- 고객 응대 자동화
- 디지털 서비스 운영 자동화 전반
Company Background
- 트릴리온랩스는 네이버 하이퍼클로바X 핵심 개발 인력이었던 신재신 대표가 2024년 설립했다.
- 설립 1년 만에 70 B 규모의 LLM을 처음부터(from scratch) 개발·공개했으며, 이어 **VLM ‘Trillion‑LLava’**와 이번 모바일 월드모델을 선보였다.
- 대규모 모델, 멀티모달, 월드모델을 아우르는 기술 스택을 구축하고 있다.
“묻고 답하는 AI를 넘어 복잡한 디지털·물리적 환경에서 직접 행동하는 실행형 AI의 시대가 도래했다.” – 신재민 대표