[Paper] LoST：语义层级标记化用于3D形状

发布: 1天前 (2026年3月19日 GMT+8 01:56)

8 分钟阅读

原文: arXiv

请提供您希望翻译的具体文本内容，我会按照要求保留来源链接并进行简体中文翻译。

概述

本文介绍了 LoST（语义层级标记化），这是一种将 3‑D 形状拆分为离散标记的新方法，这些标记按照语义重要性排序，而不仅仅是几何细节。通过这种方式，早期的标记已经捕捉到对象的“整体概念”，而后续的标记则添加更细致的几何细微差别。这种以语义为先的标记化显著提升了自回归（AR）3‑D 生成模型的效率和质量。

关键贡献

Semantic‑driven token ordering：将 token 从粗粒度、语义上有意义的组件排列到细粒度几何，实现对合理形状的早期解码。
Relational Inter‑Distance Alignment (RIDA)：一种新颖的损失函数，将形状潜在空间的关系结构与 DINO‑derived 语义特征的关系结构对齐，确保 token 之间的语义一致性。
State‑of‑the‑art reconstruction：LoST 在几何保真度（例如 Chamfer Distance）和语义一致性指标上均优于之前的 level‑of‑detail (LoD) tokenizers。
Token efficiency：仅使用现有 AR 3‑D 模型所需 token 的 0.1 %–10 %，即可实现相当或更好的结果。
Downstream utility：展示了学习到的 token 能支持诸如语义形状检索等任务，且无需额外微调。

方法论

语义特征提取 – 将每个 3‑D 形状从多个视角渲染，并使用预训练的 DINO 视觉 Transformer 处理，以获得高级语义描述符。
潜在空间构建 – 变分自编码器（VAE）将原始网格编码为潜在向量。
RIDA 损失 – 不同形状的潜在向量之间的成对距离被强制匹配它们的 DINO 语义描述符之间的成对距离。这使几何‑潜在空间与语义空间对齐，促使 VAE 保持语义关系。
令牌序列化 – 将潜在向量量化为离散令牌序列。令牌按照 语义显著性（来源于 RIDA 对齐的潜在空间）排序，因此前几个令牌已经能够重建一个粗略、语义上正确的形状。
自回归生成 – AR Transformer 预测令牌序列。由于早期令牌承载了大部分语义信息，模型只需少量步骤即可生成可辨识的形状，随后通过采样更多令牌来细化细节。

结果与发现

指标	LoST 与基于 LoD 的基线
Chamfer Distance（越低越好）	约提升 30 %
Semantic Consistency（越高越好）	约提升 45 %
每个形状的 token 数	占先前 AR 模型的 0.1 %–10 %
生成速度（tokens/second）	约提升 5×，因为序列更短

定性地说，仅使用 5–10 个 token 生成的形状已经与目标类别相似（例如椅子的靠背和座位），而基于 LoD 的方法需要数十个 token 才能让对象变得可辨认。作者还展示，使用 LoST token 嵌入进行最近邻搜索，比使用原始基于几何的描述符能够得到更语义上准确的检索结果。

实际影响

更快的 3‑D 内容流水线 – 游戏工作室和 AR/VR 开发者可以在更少的计算周期下实时生成高质量资产，从而降低云端成本。
渐进式流式传输 – 由于早期 token 已经传达出可用的粗略模型，应用可以先流式传输低分辨率但语义上正确的形状，然后在客户端随着更多 token 到达逐步细化。
语义搜索与索引 – 资产库可以对 LoST token 进行索引，实现快速、基于意义的检索，提升设计师在查找“现代办公椅”与“复古凳子”时的工作流效率。
紧凑存储 – 仅存储 token 序列（而非完整网格）即可将 3‑D 模型数据库的体积缩小数量级，对移动端或边缘设备尤为有利。
更佳的 AR 生成工具 – 使用文本到 3‑D 或草图到 3‑D 系统的艺术家能够更快获得语义连贯的输出，因为模型在生成过程的早期就已经掌握了高层次形状信息。

限制与未来工作

对 2‑D 语义特征的依赖 – RIDA 利用从渲染视图中提取的 DINO 特征；任何 2‑D 编码器的偏差或失效都会传播到 3‑D 标记化过程。
对高度复杂场景的可扩展性 – 当前实验聚焦于单个物体；将 LoST 扩展到包含多个交互实体的整体场景仍是一个未解决的挑战。
细节分辨率 – 虽然标记数量大幅减少，但超细的几何细微差别（例如复杂的雕刻）可能仍需要额外的标记或混合方法来表示。
跨域泛化能力 – 该方法在常见形状数据集（如 ShapeNet）上进行评估。未来工作可以探索对 CAD 模型、医学扫描或仅点云数据的领域适应。

总体而言，LoST 为实现更具语义感知且高效的 3‑D 生成管线开辟了有前景的道路，弥合了高层理解与低层几何之间的差距。

作者

Niladri Shekhar Dutt
Zifan Shi
Paul Guerrero
Chun‑Hao Paul Huang
Duygu Ceylan
Niloy J. Mitra
Xuelin Chen

论文信息

arXiv ID: 2603.17995v1
分类: cs.CV, cs.GR, cs.LG
发表时间: 2026年3月18日
PDF: 下载 PDF

[Paper] LoST：语义层级标记化用于3D形状

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 用于高效视频 VLMs 的统一时空令牌评分

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

[Paper] VideoAtlas：在对数计算中导航长篇视频

[Paper] MessyKitchens：接触丰富的对象级 3D 场景重建