[Paper] Omni123: 제한된 3D 데이터를 활용한 3D 네이티브 파운데이션 모델 탐색 – 텍스트를 2D 및 3D 생성으로 통합

발행: 1일 전 (2026년 4월 3일 AM 02:29 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2604.02289v1

Overview

Omni123는 3‑D‑네이티브 기반 모델로, 단일 텍스트 프롬프트에서 이미지와 3‑D 자산을 모두 생성할 수 있습니다. 텍스트, 2‑D 이미지, 그리고 3‑D 기하학을 이산 토큰 시퀀스로 취급함으로써, 모델은 의미, 외관, 다중 뷰 기하학을 동기화하는 방법을 학습합니다—거대한 완벽히 정렬된 텍스트‑이미지‑3D 데이터셋이 필요하지 않습니다. 이 작업은 “텍스트‑투‑3D”의 최전선을 틈새 연구 문제에서 실제 파이프라인에 플러그인할 수 있는 확장 가능한 도구로 전환합니다.

Source: …

핵심 기여

통합 자동 회귀 프레임워크: 텍스트 → 2D 및 텍스트 → 3D 생성을 동일한 모델에서 처리합니다.
교차 모달 토크나이제이션: 텍스트, 래스터 이미지, 그리고 voxel/mesh 표현을 모두 이산 토큰으로 인코딩하여 다중 모달 추론을 위한 공통 언어를 제공합니다.
교차 X‑to‑X 학습: 이질적인 쌍(텍스트‑이미지, 텍스트‑3D, 이미지‑3D)을 하나의 시퀀스로 연결해 학습함으로써 비용이 많이 드는 삼중 주석(triplet annotation)의 필요성을 없앱니다.
암시적 기하학적 사전 지식: 풍부한 2D 이미지 데이터가 구조적 단서로 작용해 3D 합성을 정규화하고, 형태 타당성 및 다시 보기 일관성을 향상시킵니다.
시맨틱‑비주얼‑기하학 사이클 손실: 모델이 텍스트 → 이미지 → 3D → 이미지와 같은 사이클을 완성하도록 학습시켜 모달리티 간 정렬을 강제합니다.
이전 2D‑우선 파이프라인 대비 텍스트 기반 3D 생성 및 3D 편집 작업 모두에서 뛰어난 성능 향상을 입증했습니다.

방법론

Tokenization
- Text → 서브워드 토큰(예: BPE).
- 2‑D images → 사전 학습된 VQ‑GAN/VQ‑VAE를 사용한 이산 시각 토큰.
- 3‑D geometry → 별도의 3‑D VQ‑VAE가 생성한 voxel 또는 point‑cloud 토큰.
Shared Autoregressive Decoder
- 트랜스포머 디코더가 연결된 시퀀스 [TEXT][IMAGE][3D]에서 다음 토큰을 예측합니다.
- 모든 모달리티가 동일한 어휘(vocabulary)를 공유하기 때문에, 모델은 언어 모델이 언어 간을 번역하듯이 모달리티 간을 “번역”할 수 있습니다.
Interleaved X‑to‑X Training
- 학습 데이터는 세 개의 쌍(pairwise) 데이터셋으로 구성됩니다: (text, image), (text, 3‑D), 그리고 (image, 3‑D).
- 각 배치마다 모델은 부분적으로 채워진 토큰 시퀀스(예: text + image)를 받고, 누락된 모달리티(3‑D)를 자동 회귀 방식으로 생성하도록 요구됩니다.
- 이러한 교차 학습 방식은 전체 삼중(triplet)을 한 번도 보지 않고도 모델이 교차 모달 대응 관계를 학습하게 합니다.
Cycle Consistency Losses
- 3‑D 토큰 블록을 생성한 뒤, 모델에게 해당 3‑D 표현으로부터 이미지를 다시 생성하도록 할 수 있습니다.
- 손실 함수는 원본 이미지 토큰과 재생성된 이미지 토큰 사이의 차이를 벌점으로 부과하여, 기하학적 정확성과 시점 일관성을 유지하도록 합니다.
Fine‑tuning for Editing
- 기존 3‑D 토큰 시퀀스와 텍스트 편집 지시문을 조건으로 제공하면, 모델은 객체의 나머지 부분을 유지하면서 기하학이나 텍스처를 수정할 수 있습니다.

결과 및 발견

작업	베이스라인 (2‑D‑first 파이프라인)	Omni123	향상
텍스트‑투‑3‑D 생성 (렌더링된 뷰의 FID)	0.78	0.54	↓ 30%
다중 뷰 기하학적 일관성 (Chamfer‑L2)	0.112	0.067	↓ 40%
텍스트 기반 3‑D 편집 (사용자 연구, 5점 Likert)	3.2	4.1	+0.9

시각적 충실도 향상: Omni123의 메쉬에서 렌더링된 이미지는 더 선명하고 프롬프트에 설명된 색상 팔레트를 유지합니다.
형태 현실감 향상: 2‑D 데이터에서 얻은 암시적 기하학적 사전은 떠다니는 기하학이나 파손된 토폴로지와 같은 아티팩트를 감소시킵니다.
추론 속도 향상: 모델이 직접 3‑D 토큰을 예측하기 때문에 확산 기반 lift‑to‑3‑D 방법에서 사용되는 비용이 많이 드는 최적화 루프를 피합니다.

Practical Implications

Area	How Omni123 Helps
Game & VR asset pipelines	디자이너가 “빛나는 룬이 새겨진 녹슨 중세 검”이라고 입력하면 바로 내보낼 수 있는 메쉬를 받아볼 수 있어, 수주가 걸리던 수작업 모델링을 크게 단축합니다.
E‑commerce & AR try‑on	소매업체는 카탈로그 설명만으로 3‑D 제품 모델을 생성해, 포토그래메트리 없이도 즉시 AR 미리보기를 제공할 수 있습니다.
Robotics & Simulation	시뮬레이터는 텍스트 시나리오 스크립트에서 다양한 객체 형상을 합성해, 인식 알고리즘 학습을 위한 훈련 환경을 풍부하게 만들 수 있습니다.
Content creation tools	Blender, Unity, Unreal용 플러그인이 모델을 “text‑to‑asset” 서비스로 호출해, 아티스트의 반복 작업을 간소화합니다.
Cross‑modal search	텍스트, 이미지, 3‑D가 동일 토큰 공간을 공유하므로, 단일 인덱스로 여러 모달리티에 걸친 자산을 검색할 수 있습니다 (예: “이 스케치와 비슷한 3‑D 모델 찾기”).

Developers can integrate Omni123 via a simple REST API that accepts a prompt and returns either a VQ‑decoded mesh file (OBJ/GLTF) or a set of rendered images, making it a drop‑in component for any pipeline that needs 3‑D content on demand.

제한 사항 및 향후 작업

데이터 편향: 모델은 2‑D 이미지 코퍼스에서 편향을 물려받습니다(예: 특정 객체 카테고리의 과다 표현).
해상도 한계: 현재 토큰 어휘는 기하학의 세분성을 제한합니다; 초고다각형 메시는 여전히 후처리가 필요합니다.
복잡한 장면: Omni123는 단일 객체에 뛰어나지만, 다수의 상호 작용하는 엔티티가 있는 전체 실내/실외 장면으로 확장하는 것은 아직 해결되지 않은 과제입니다.
실시간 편집: 최적화 기반 방법보다 빠르지만, 추론은 여전히 단일 GPU에서 몇 초가 걸립니다; 인터랙티브 사용을 위해서는 추가적인 모델 압축이 필요합니다.

미래 방향으로는 더 정밀한 기하학을 위해 토큰 어휘를 확장하고, 깊이 인식 이미지 토큰을 도입하여 폐색을 더 잘 포착하며, 멀티모달 비디오‑3‑D 데이터셋으로 학습하여 동적 장면 생성을 가능하게 하는 것이 포함됩니다.

Omni123는 단일 자동회귀 모델이 텍스트, 이미지, 3‑D 기하학 사이의 격차를 메울 수 있음을 보여주며, “프롬프트를 작성하면 3‑D 자산을 얻는다”는 연구 호기심을 개발자를 위한 실용적인 역량으로 전환합니다.

저자

Chongjie Ye
Cheng Cao
Chuanyu Pan
Yiming Hao
Yihao Zhi
Yuanming Hu
Xiaoguang Han

논문 정보

arXiv ID: 2604.02289v1
분류: cs.CV, cs.AI
출판일: 2026년 4월 2일
PDF: Download PDF

[Paper] Omni123: 제한된 3D 데이터를 활용한 3D 네이티브 파운데이션 모델 탐색 – 텍스트를 2D 및 3D 생성으로 통합

Overview

핵심 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 조정 가능한 시각 표현

[Paper] VOID: 비디오 객체 및 상호작용 삭제

[Paper] 자율 AI 에이전트를 위한 새로운 Memory Forgetting 기법: 관련성과 효율성의 균형

[Paper] HippoCamp: 개인용 컴퓨터에서 Contextual Agents 벤치마킹