[Paper] LoST: 3D 형태를 위한 의미 수준 토큰화

발행: 1개월 전 (2026년 3월 19일 오전 02:56 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.17995v1

개요

이 논문은 LoST (Level‑of‑Semantics Tokenization) 를 소개한다. 이는 3‑D 형상을 기하학적 세부 사항만이 아니라 의미적 중요도에 따라 순서가 매겨진 이산 토큰으로 분해하는 새로운 방법이다. 이렇게 하면 초기 토큰만으로도 객체의 “큰 그림”을 포착하고, 이후 토큰이 더 세밀한 기하학적 뉘앙스를 추가한다. 이러한 의미‑우선 토큰화는 자동회귀(AR) 3‑D 생성 모델의 효율성과 품질을 크게 향상시킨다.

주요 기여

Semantic‑driven token ordering: 토큰을 거친 의미적 구성 요소에서 세밀한 기하학 순으로 배치하여 그럴듯한 형태를 조기에 디코딩할 수 있게 함.
Relational Inter‑Distance Alignment (RIDA): 형태의 잠재 공간과 DINO‑기반 의미 특징의 관계 구조를 정렬하는 새로운 손실 함수로, 토큰 간 의미 일관성을 보장.
State‑of‑the‑art reconstruction: LoST는 기하학적 충실도(예: Chamfer Distance)와 의미 일관성 지표 모두에서 기존 레벨‑오브‑디테일(LoD) 토크나이저보다 우수한 성능을 보임.
Token efficiency: 기존 AR 3‑D 모델이 필요로 하는 토큰의 **0.1 %–10 %**만 사용해 동등하거나 더 나은 결과를 달성.
Downstream utility: 학습된 토큰이 추가 파인‑튜닝 없이도 의미 기반 형태 검색과 같은 작업을 지원함을 입증.

방법론

Semantic Feature Extraction – 각 3‑D 형태는 여러 뷰에서 렌더링되고 사전 학습된 DINO 비전 트랜스포머에 의해 처리되어 고수준 의미 기술자를 얻는다.
Latent Space Construction – 변분 오토인코더(VAE)가 원시 메쉬를 잠재 벡터로 인코딩한다.
RIDA Loss – 서로 다른 형태들의 잠재 벡터 간 쌍별 거리와 해당 DINO 의미 기술자 간 쌍별 거리가 일치하도록 강제한다. 이는 기하학‑잠재 공간을 의미 공간과 정렬시켜 VAE가 의미 관계를 보존하도록 유도한다.
Token Sequencing – 잠재 벡터를 이산 토큰 시퀀스로 양자화한다. 토큰은 semantic salience(RIDA‑정렬된 잠재 공간에서 도출) 기준으로 정렬되며, 따라서 처음 몇 개 토큰만으로도 거친 의미적으로 올바른 형태를 복원한다.
Autoregressive Generation – AR 트랜스포머가 토큰 시퀀스를 예측한다. 초기 토큰이 대부분의 의미 내용을 담고 있기 때문에 모델은 몇 단계만에 인식 가능한 형태를 생성하고, 더 많은 토큰이 샘플링될수록 세부를 정교화한다.

결과 및 발견

측정항목	LoST vs. LoD‑based 베이스라인
Chamfer Distance (값이 낮을수록 좋음)	~30 % improvement
Semantic Consistency (값이 높을수록 좋음)	~45 % improvement
Tokens per shape	0.1 %–10 % of prior AR models
Generation speed (tokens/second)	~5× faster due to shorter sequences

정성적으로, 5–10개의 토큰만으로 생성된 형태는 이미 목표 클래스와 유사하게 보이며 (예: 의자의 등받이와 좌석), LoD‑based 방법은 물체가 인식될 때까지 수십 개의 토큰이 필요합니다. 저자들은 또한 LoST 토큰 임베딩을 최근접 이웃 검색에 사용하면 원시 기하학 기반 설명자보다 의미적으로 더 정확한 검색 결과를 얻을 수 있음을 보여줍니다.

실용적 함의

더 빠른 3‑D 콘텐츠 파이프라인 – 게임 스튜디오와 AR/VR 개발자는 훨씬 적은 연산 사이클로 실시간 고품질 에셋을 생성할 수 있어 클라우드 비용을 절감합니다.
프로그레시브 스트리밍 – 초기 토큰이 사용 가능한 거친 모델을 전달하므로, 애플리케이션은 낮은 해상도이지만 의미적으로 올바른 형태를 먼저 스트리밍하고, 이후 토큰이 도착함에 따라 클라이언트 측에서 정제할 수 있습니다.
시맨틱 검색 및 인덱싱 – 에셋 라이브러리는 LoST 토큰을 색인화하여 빠르고 의미를 고려한 검색이 가능해지며, 디자이너가 “현대식 사무용 의자”와 “빈티지 스툴”을 찾을 때 작업 흐름을 개선합니다.
컴팩트 저장 – 전체 메시 대신 토큰 시퀀스만 저장하면 3‑D 모델 데이터베이스를 수십 배까지 축소할 수 있어 모바일이나 엣지 디바이스에 유리합니다.
향상된 AR 생성 도구 – 텍스트‑투‑3‑D 또는 스케치‑투‑3‑D 시스템을 사용하는 아티스트는 모델이 생성 과정 초기에 고수준 형태를 이미 파악하고 있기 때문에 의미적으로 일관된 결과물을 더 빠르게 얻을 수 있습니다.

Limitations & Future Work

Dependence on 2‑D semantic features – RIDA는 렌더링된 뷰에서 추출한 DINO 특징을 활용합니다; 2‑D 인코더의 편향이나 오류가 3‑D 토크나이제이션에 그대로 전달됩니다.
Scalability to highly complex scenes – 현재 실험은 단일 객체에 초점을 맞추고 있습니다; 다수의 상호작용하는 엔티티가 포함된 전체 장면으로 LoST를 확장하는 것은 아직 해결되지 않은 과제입니다.
Resolution of fine details – 토큰 수는 크게 감소했지만, 매우 섬세한 기하학적 디테일(예: 정교한 조각)은 여전히 추가 토큰이나 하이브리드 접근이 필요할 수 있습니다.
Generalization across domains – 이 방법은 일반적인 형태 데이터셋(예: ShapeNet)에서 평가되었습니다. 향후 작업에서는 CAD 모델, 의료 스캔, 혹은 포인트 클라우드 전용 데이터로의 도메인 적응을 탐색할 수 있습니다.

Overall, LoST opens a promising path toward more semantically aware and efficient 3‑D generative pipelines, bridging the gap between high‑level understanding and low‑level geometry.

저자

Niladri Shekhar Dutt
Zifan Shi
Paul Guerrero
Chun‑Hao Paul Huang
Duygu Ceylan
Niloy J. Mitra
Xuelin Chen

논문 정보

arXiv ID: 2603.17995v1
카테고리: cs.CV, cs.GR, cs.LG
출판일: 2026년 3월 18일
PDF: Download PDF

[Paper] LoST: 3D 형태를 위한 의미 수준 토큰화

개요

주요 기여

방법론

결과 및 발견

실용적 함의

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] LumosX: 모든 정체성을 그들의 속성과 연결하여 맞춤형 비디오 생성

[Paper] VideoSeek: Long-Horizon 비디오 에이전트와 Tool-Guided 탐색

[Paper] 효율적인 비디오 VLM을 위한 통합 시공간 토큰 스코어링

[Paper] Loc3R-VLM: 언어 기반 로컬라이제이션 및 3D 추론 with Vision-Language Models