[Paper] Omni123: 제한된 3D 데이터를 활용한 3D 네이티브 파운데이션 모델 탐색 – 텍스트를 2D 및 3D 생성으로 통합

발행: (2026년 4월 3일 AM 02:29 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2604.02289v1

Overview

Omni123는 3‑D‑네이티브 기반 모델로, 단일 텍스트 프롬프트에서 이미지와 3‑D 자산을 모두 생성할 수 있습니다. 텍스트, 2‑D 이미지, 그리고 3‑D 기하학을 이산 토큰 시퀀스로 취급함으로써, 모델은 의미, 외관, 다중 뷰 기하학을 동기화하는 방법을 학습합니다—거대한 완벽히 정렬된 텍스트‑이미지‑3D 데이터셋이 필요하지 않습니다. 이 작업은 “텍스트‑투‑3D”의 최전선을 틈새 연구 문제에서 실제 파이프라인에 플러그인할 수 있는 확장 가능한 도구로 전환합니다.

Source:

핵심 기여

  • 통합 자동 회귀 프레임워크: 텍스트 → 2D텍스트 → 3D 생성을 동일한 모델에서 처리합니다.
  • 교차 모달 토크나이제이션: 텍스트, 래스터 이미지, 그리고 voxel/mesh 표현을 모두 이산 토큰으로 인코딩하여 다중 모달 추론을 위한 공통 언어를 제공합니다.
  • 교차 X‑to‑X 학습: 이질적인 쌍(텍스트‑이미지, 텍스트‑3D, 이미지‑3D)을 하나의 시퀀스로 연결해 학습함으로써 비용이 많이 드는 삼중 주석(triplet annotation)의 필요성을 없앱니다.
  • 암시적 기하학적 사전 지식: 풍부한 2D 이미지 데이터가 구조적 단서로 작용해 3D 합성을 정규화하고, 형태 타당성 및 다시 보기 일관성을 향상시킵니다.
  • 시맨틱‑비주얼‑기하학 사이클 손실: 모델이 텍스트 → 이미지 → 3D → 이미지와 같은 사이클을 완성하도록 학습시켜 모달리티 간 정렬을 강제합니다.
  • 이전 2D‑우선 파이프라인 대비 텍스트 기반 3D 생성 및 3D 편집 작업 모두에서 뛰어난 성능 향상을 입증했습니다.

방법론

  1. Tokenization

    • Text → 서브워드 토큰(예: BPE).
    • 2‑D images → 사전 학습된 VQ‑GAN/VQ‑VAE를 사용한 이산 시각 토큰.
    • 3‑D geometry → 별도의 3‑D VQ‑VAE가 생성한 voxel 또는 point‑cloud 토큰.
  2. Shared Autoregressive Decoder

    • 트랜스포머 디코더가 연결된 시퀀스 [TEXT][IMAGE][3D]에서 다음 토큰을 예측합니다.
    • 모든 모달리티가 동일한 어휘(vocabulary)를 공유하기 때문에, 모델은 언어 모델이 언어 간을 번역하듯이 모달리티 간을 “번역”할 수 있습니다.
  3. Interleaved X‑to‑X Training

    • 학습 데이터는 세 개의 쌍(pairwise) 데이터셋으로 구성됩니다: (text, image), (text, 3‑D), 그리고 (image, 3‑D).
    • 각 배치마다 모델은 부분적으로 채워진 토큰 시퀀스(예: text + image)를 받고, 누락된 모달리티(3‑D)를 자동 회귀 방식으로 생성하도록 요구됩니다.
    • 이러한 교차 학습 방식은 전체 삼중(triplet)을 한 번도 보지 않고도 모델이 교차 모달 대응 관계를 학습하게 합니다.
  4. Cycle Consistency Losses

    • 3‑D 토큰 블록을 생성한 뒤, 모델에게 해당 3‑D 표현으로부터 이미지를 다시 생성하도록 할 수 있습니다.
    • 손실 함수는 원본 이미지 토큰과 재생성된 이미지 토큰 사이의 차이를 벌점으로 부과하여, 기하학적 정확성과 시점 일관성을 유지하도록 합니다.
  5. Fine‑tuning for Editing

    • 기존 3‑D 토큰 시퀀스와 텍스트 편집 지시문을 조건으로 제공하면, 모델은 객체의 나머지 부분을 유지하면서 기하학이나 텍스처를 수정할 수 있습니다.

결과 및 발견

작업베이스라인 (2‑D‑first 파이프라인)Omni123향상
텍스트‑투‑3‑D 생성 (렌더링된 뷰의 FID)0.780.54↓ 30%
다중 뷰 기하학적 일관성 (Chamfer‑L2)0.1120.067↓ 40%
텍스트 기반 3‑D 편집 (사용자 연구, 5점 Likert)3.24.1+0.9
  • 시각적 충실도 향상: Omni123의 메쉬에서 렌더링된 이미지는 더 선명하고 프롬프트에 설명된 색상 팔레트를 유지합니다.
  • 형태 현실감 향상: 2‑D 데이터에서 얻은 암시적 기하학적 사전은 떠다니는 기하학이나 파손된 토폴로지와 같은 아티팩트를 감소시킵니다.
  • 추론 속도 향상: 모델이 직접 3‑D 토큰을 예측하기 때문에 확산 기반 lift‑to‑3‑D 방법에서 사용되는 비용이 많이 드는 최적화 루프를 피합니다.

Practical Implications

AreaHow Omni123 Helps
Game & VR asset pipelines디자이너가 “빛나는 룬이 새겨진 녹슨 중세 검”이라고 입력하면 바로 내보낼 수 있는 메쉬를 받아볼 수 있어, 수주가 걸리던 수작업 모델링을 크게 단축합니다.
E‑commerce & AR try‑on소매업체는 카탈로그 설명만으로 3‑D 제품 모델을 생성해, 포토그래메트리 없이도 즉시 AR 미리보기를 제공할 수 있습니다.
Robotics & Simulation시뮬레이터는 텍스트 시나리오 스크립트에서 다양한 객체 형상을 합성해, 인식 알고리즘 학습을 위한 훈련 환경을 풍부하게 만들 수 있습니다.
Content creation toolsBlender, Unity, Unreal용 플러그인이 모델을 “text‑to‑asset” 서비스로 호출해, 아티스트의 반복 작업을 간소화합니다.
Cross‑modal search텍스트, 이미지, 3‑D가 동일 토큰 공간을 공유하므로, 단일 인덱스로 여러 모달리티에 걸친 자산을 검색할 수 있습니다 (예: “이 스케치와 비슷한 3‑D 모델 찾기”).

Developers can integrate Omni123 via a simple REST API that accepts a prompt and returns either a VQ‑decoded mesh file (OBJ/GLTF) or a set of rendered images, making it a drop‑in component for any pipeline that needs 3‑D content on demand.

제한 사항 및 향후 작업

  • 데이터 편향: 모델은 2‑D 이미지 코퍼스에서 편향을 물려받습니다(예: 특정 객체 카테고리의 과다 표현).
  • 해상도 한계: 현재 토큰 어휘는 기하학의 세분성을 제한합니다; 초고다각형 메시는 여전히 후처리가 필요합니다.
  • 복잡한 장면: Omni123는 단일 객체에 뛰어나지만, 다수의 상호 작용하는 엔티티가 있는 전체 실내/실외 장면으로 확장하는 것은 아직 해결되지 않은 과제입니다.
  • 실시간 편집: 최적화 기반 방법보다 빠르지만, 추론은 여전히 단일 GPU에서 몇 초가 걸립니다; 인터랙티브 사용을 위해서는 추가적인 모델 압축이 필요합니다.

미래 방향으로는 더 정밀한 기하학을 위해 토큰 어휘를 확장하고, 깊이 인식 이미지 토큰을 도입하여 폐색을 더 잘 포착하며, 멀티모달 비디오‑3‑D 데이터셋으로 학습하여 동적 장면 생성을 가능하게 하는 것이 포함됩니다.


Omni123는 단일 자동회귀 모델이 텍스트, 이미지, 3‑D 기하학 사이의 격차를 메울 수 있음을 보여주며, “프롬프트를 작성하면 3‑D 자산을 얻는다”는 연구 호기심을 개발자를 위한 실용적인 역량으로 전환합니다.

저자

  • Chongjie Ye
  • Cheng Cao
  • Chuanyu Pan
  • Yiming Hao
  • Yihao Zhi
  • Yuanming Hu
  • Xiaoguang Han

논문 정보

  • arXiv ID: 2604.02289v1
  • 분류: cs.CV, cs.AI
  • 출판일: 2026년 4월 2일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 조정 가능한 시각 표현

Pretrained Vision Transformers (ViTs)와 같은 DINOv2 및 MAE는 다양한 다운스트림 작업에 적용할 수 있는 일반적인 이미지 특징을 제공합니다. 예를 들어 retriev...