[Paper] LoST: 3D 형태를 위한 의미 수준 토큰화
Source: arXiv - 2603.17995v1
개요
이 논문은 LoST (Level‑of‑Semantics Tokenization) 를 소개한다. 이는 3‑D 형상을 기하학적 세부 사항만이 아니라 의미적 중요도에 따라 순서가 매겨진 이산 토큰으로 분해하는 새로운 방법이다. 이렇게 하면 초기 토큰만으로도 객체의 “큰 그림”을 포착하고, 이후 토큰이 더 세밀한 기하학적 뉘앙스를 추가한다. 이러한 의미‑우선 토큰화는 자동회귀(AR) 3‑D 생성 모델의 효율성과 품질을 크게 향상시킨다.
주요 기여
- Semantic‑driven token ordering: 토큰을 거친 의미적 구성 요소에서 세밀한 기하학 순으로 배치하여 그럴듯한 형태를 조기에 디코딩할 수 있게 함.
- Relational Inter‑Distance Alignment (RIDA): 형태의 잠재 공간과 DINO‑기반 의미 특징의 관계 구조를 정렬하는 새로운 손실 함수로, 토큰 간 의미 일관성을 보장.
- State‑of‑the‑art reconstruction: LoST는 기하학적 충실도(예: Chamfer Distance)와 의미 일관성 지표 모두에서 기존 레벨‑오브‑디테일(LoD) 토크나이저보다 우수한 성능을 보임.
- Token efficiency: 기존 AR 3‑D 모델이 필요로 하는 토큰의 **0.1 %–10 %**만 사용해 동등하거나 더 나은 결과를 달성.
- Downstream utility: 학습된 토큰이 추가 파인‑튜닝 없이도 의미 기반 형태 검색과 같은 작업을 지원함을 입증.
방법론
- Semantic Feature Extraction – 각 3‑D 형태는 여러 뷰에서 렌더링되고 사전 학습된 DINO 비전 트랜스포머에 의해 처리되어 고수준 의미 기술자를 얻는다.
- Latent Space Construction – 변분 오토인코더(VAE)가 원시 메쉬를 잠재 벡터로 인코딩한다.
- RIDA Loss – 서로 다른 형태들의 잠재 벡터 간 쌍별 거리와 해당 DINO 의미 기술자 간 쌍별 거리가 일치하도록 강제한다. 이는 기하학‑잠재 공간을 의미 공간과 정렬시켜 VAE가 의미 관계를 보존하도록 유도한다.
- Token Sequencing – 잠재 벡터를 이산 토큰 시퀀스로 양자화한다. 토큰은 semantic salience(RIDA‑정렬된 잠재 공간에서 도출) 기준으로 정렬되며, 따라서 처음 몇 개 토큰만으로도 거친 의미적으로 올바른 형태를 복원한다.
- Autoregressive Generation – AR 트랜스포머가 토큰 시퀀스를 예측한다. 초기 토큰이 대부분의 의미 내용을 담고 있기 때문에 모델은 몇 단계만에 인식 가능한 형태를 생성하고, 더 많은 토큰이 샘플링될수록 세부를 정교화한다.
결과 및 발견
| 측정항목 | LoST vs. LoD‑based 베이스라인 |
|---|---|
| Chamfer Distance (값이 낮을수록 좋음) | ~30 % improvement |
| Semantic Consistency (값이 높을수록 좋음) | ~45 % improvement |
| Tokens per shape | 0.1 %–10 % of prior AR models |
| Generation speed (tokens/second) | ~5× faster due to shorter sequences |
정성적으로, 5–10개의 토큰만으로 생성된 형태는 이미 목표 클래스와 유사하게 보이며 (예: 의자의 등받이와 좌석), LoD‑based 방법은 물체가 인식될 때까지 수십 개의 토큰이 필요합니다. 저자들은 또한 LoST 토큰 임베딩을 최근접 이웃 검색에 사용하면 원시 기하학 기반 설명자보다 의미적으로 더 정확한 검색 결과를 얻을 수 있음을 보여줍니다.
실용적 함의
- 더 빠른 3‑D 콘텐츠 파이프라인 – 게임 스튜디오와 AR/VR 개발자는 훨씬 적은 연산 사이클로 실시간 고품질 에셋을 생성할 수 있어 클라우드 비용을 절감합니다.
- 프로그레시브 스트리밍 – 초기 토큰이 사용 가능한 거친 모델을 전달하므로, 애플리케이션은 낮은 해상도이지만 의미적으로 올바른 형태를 먼저 스트리밍하고, 이후 토큰이 도착함에 따라 클라이언트 측에서 정제할 수 있습니다.
- 시맨틱 검색 및 인덱싱 – 에셋 라이브러리는 LoST 토큰을 색인화하여 빠르고 의미를 고려한 검색이 가능해지며, 디자이너가 “현대식 사무용 의자”와 “빈티지 스툴”을 찾을 때 작업 흐름을 개선합니다.
- 컴팩트 저장 – 전체 메시 대신 토큰 시퀀스만 저장하면 3‑D 모델 데이터베이스를 수십 배까지 축소할 수 있어 모바일이나 엣지 디바이스에 유리합니다.
- 향상된 AR 생성 도구 – 텍스트‑투‑3‑D 또는 스케치‑투‑3‑D 시스템을 사용하는 아티스트는 모델이 생성 과정 초기에 고수준 형태를 이미 파악하고 있기 때문에 의미적으로 일관된 결과물을 더 빠르게 얻을 수 있습니다.
Limitations & Future Work
- Dependence on 2‑D semantic features – RIDA는 렌더링된 뷰에서 추출한 DINO 특징을 활용합니다; 2‑D 인코더의 편향이나 오류가 3‑D 토크나이제이션에 그대로 전달됩니다.
- Scalability to highly complex scenes – 현재 실험은 단일 객체에 초점을 맞추고 있습니다; 다수의 상호작용하는 엔티티가 포함된 전체 장면으로 LoST를 확장하는 것은 아직 해결되지 않은 과제입니다.
- Resolution of fine details – 토큰 수는 크게 감소했지만, 매우 섬세한 기하학적 디테일(예: 정교한 조각)은 여전히 추가 토큰이나 하이브리드 접근이 필요할 수 있습니다.
- Generalization across domains – 이 방법은 일반적인 형태 데이터셋(예: ShapeNet)에서 평가되었습니다. 향후 작업에서는 CAD 모델, 의료 스캔, 혹은 포인트 클라우드 전용 데이터로의 도메인 적응을 탐색할 수 있습니다.
Overall, LoST opens a promising path toward more semantically aware and efficient 3‑D generative pipelines, bridging the gap between high‑level understanding and low‑level geometry.
저자
- Niladri Shekhar Dutt
- Zifan Shi
- Paul Guerrero
- Chun‑Hao Paul Huang
- Duygu Ceylan
- Niloy J. Mitra
- Xuelin Chen
논문 정보
- arXiv ID: 2603.17995v1
- 카테고리: cs.CV, cs.GR, cs.LG
- 출판일: 2026년 3월 18일
- PDF: Download PDF