[Paper] LoST:语义层级标记化用于3D形状
发布: (2026年3月19日 GMT+8 01:56)
8 分钟阅读
原文: arXiv
请提供您希望翻译的具体文本内容,我会按照要求保留来源链接并进行简体中文翻译。
概述
本文介绍了 LoST(语义层级标记化),这是一种将 3‑D 形状拆分为离散标记的新方法,这些标记按照语义重要性排序,而不仅仅是几何细节。通过这种方式,早期的标记已经捕捉到对象的“整体概念”,而后续的标记则添加更细致的几何细微差别。这种以语义为先的标记化显著提升了自回归(AR)3‑D 生成模型的效率和质量。
关键贡献
- Semantic‑driven token ordering:将 token 从粗粒度、语义上有意义的组件排列到细粒度几何,实现对合理形状的早期解码。
- Relational Inter‑Distance Alignment (RIDA):一种新颖的损失函数,将形状潜在空间的关系结构与 DINO‑derived 语义特征的关系结构对齐,确保 token 之间的语义一致性。
- State‑of‑the‑art reconstruction:LoST 在几何保真度(例如 Chamfer Distance)和语义一致性指标上均优于之前的 level‑of‑detail (LoD) tokenizers。
- Token efficiency:仅使用现有 AR 3‑D 模型所需 token 的 0.1 %–10 %,即可实现相当或更好的结果。
- Downstream utility:展示了学习到的 token 能支持诸如语义形状检索等任务,且无需额外微调。
方法论
- 语义特征提取 – 将每个 3‑D 形状从多个视角渲染,并使用预训练的 DINO 视觉 Transformer 处理,以获得高级语义描述符。
- 潜在空间构建 – 变分自编码器(VAE)将原始网格编码为潜在向量。
- RIDA 损失 – 不同形状的潜在向量之间的成对距离被强制匹配它们的 DINO 语义描述符之间的成对距离。这使几何‑潜在空间与语义空间对齐,促使 VAE 保持语义关系。
- 令牌序列化 – 将潜在向量量化为离散令牌序列。令牌按照 语义显著性(来源于 RIDA 对齐的潜在空间)排序,因此前几个令牌已经能够重建一个粗略、语义上正确的形状。
- 自回归生成 – AR Transformer 预测令牌序列。由于早期令牌承载了大部分语义信息,模型只需少量步骤即可生成可辨识的形状,随后通过采样更多令牌来细化细节。
结果与发现
| 指标 | LoST 与基于 LoD 的基线 |
|---|---|
| Chamfer Distance(越低越好) | 约提升 30 % |
| Semantic Consistency(越高越好) | 约提升 45 % |
| 每个形状的 token 数 | 占先前 AR 模型的 0.1 %–10 % |
| 生成速度(tokens/second) | 约提升 5×,因为序列更短 |
定性地说,仅使用 5–10 个 token 生成的形状已经与目标类别相似(例如椅子的靠背和座位),而基于 LoD 的方法需要数十个 token 才能让对象变得可辨认。作者还展示,使用 LoST token 嵌入进行最近邻搜索,比使用原始基于几何的描述符能够得到更语义上准确的检索结果。
实际影响
- 更快的 3‑D 内容流水线 – 游戏工作室和 AR/VR 开发者可以在更少的计算周期下实时生成高质量资产,从而降低云端成本。
- 渐进式流式传输 – 由于早期 token 已经传达出可用的粗略模型,应用可以先流式传输低分辨率但语义上正确的形状,然后在客户端随着更多 token 到达逐步细化。
- 语义搜索与索引 – 资产库可以对 LoST token 进行索引,实现快速、基于意义的检索,提升设计师在查找“现代办公椅”与“复古凳子”时的工作流效率。
- 紧凑存储 – 仅存储 token 序列(而非完整网格)即可将 3‑D 模型数据库的体积缩小数量级,对移动端或边缘设备尤为有利。
- 更佳的 AR 生成工具 – 使用文本到 3‑D 或草图到 3‑D 系统的艺术家能够更快获得语义连贯的输出,因为模型在生成过程的早期就已经掌握了高层次形状信息。
限制与未来工作
- 对 2‑D 语义特征的依赖 – RIDA 利用从渲染视图中提取的 DINO 特征;任何 2‑D 编码器的偏差或失效都会传播到 3‑D 标记化过程。
- 对高度复杂场景的可扩展性 – 当前实验聚焦于单个物体;将 LoST 扩展到包含多个交互实体的整体场景仍是一个未解决的挑战。
- 细节分辨率 – 虽然标记数量大幅减少,但超细的几何细微差别(例如复杂的雕刻)可能仍需要额外的标记或混合方法来表示。
- 跨域泛化能力 – 该方法在常见形状数据集(如 ShapeNet)上进行评估。未来工作可以探索对 CAD 模型、医学扫描或仅点云数据的领域适应。
总体而言,LoST 为实现更具语义感知且高效的 3‑D 生成管线开辟了有前景的道路,弥合了高层理解与低层几何之间的差距。
作者
- Niladri Shekhar Dutt
- Zifan Shi
- Paul Guerrero
- Chun‑Hao Paul Huang
- Duygu Ceylan
- Niloy J. Mitra
- Xuelin Chen
论文信息
- arXiv ID: 2603.17995v1
- 分类: cs.CV, cs.GR, cs.LG
- 发表时间: 2026年3月18日
- PDF: 下载 PDF