[Paper] LoST:语义层级标记化用于3D形状

发布: (2026年3月19日 GMT+8 01:56)
8 分钟阅读
原文: arXiv

请提供您希望翻译的具体文本内容,我会按照要求保留来源链接并进行简体中文翻译。

概述

本文介绍了 LoST(语义层级标记化),这是一种将 3‑D 形状拆分为离散标记的新方法,这些标记按照语义重要性排序,而不仅仅是几何细节。通过这种方式,早期的标记已经捕捉到对象的“整体概念”,而后续的标记则添加更细致的几何细微差别。这种以语义为先的标记化显著提升了自回归(AR)3‑D 生成模型的效率和质量。

关键贡献

  • Semantic‑driven token ordering:将 token 从粗粒度、语义上有意义的组件排列到细粒度几何,实现对合理形状的早期解码。
  • Relational Inter‑Distance Alignment (RIDA):一种新颖的损失函数,将形状潜在空间的关系结构与 DINO‑derived 语义特征的关系结构对齐,确保 token 之间的语义一致性。
  • State‑of‑the‑art reconstruction:LoST 在几何保真度(例如 Chamfer Distance)和语义一致性指标上均优于之前的 level‑of‑detail (LoD) tokenizers。
  • Token efficiency:仅使用现有 AR 3‑D 模型所需 token 的 0.1 %–10 %,即可实现相当或更好的结果。
  • Downstream utility:展示了学习到的 token 能支持诸如语义形状检索等任务,且无需额外微调。

方法论

  1. 语义特征提取 – 将每个 3‑D 形状从多个视角渲染,并使用预训练的 DINO 视觉 Transformer 处理,以获得高级语义描述符。
  2. 潜在空间构建 – 变分自编码器(VAE)将原始网格编码为潜在向量。
  3. RIDA 损失 – 不同形状的潜在向量之间的成对距离被强制匹配它们的 DINO 语义描述符之间的成对距离。这使几何‑潜在空间与语义空间对齐,促使 VAE 保持语义关系。
  4. 令牌序列化 – 将潜在向量量化为离散令牌序列。令牌按照 语义显著性(来源于 RIDA 对齐的潜在空间)排序,因此前几个令牌已经能够重建一个粗略、语义上正确的形状。
  5. 自回归生成 – AR Transformer 预测令牌序列。由于早期令牌承载了大部分语义信息,模型只需少量步骤即可生成可辨识的形状,随后通过采样更多令牌来细化细节。

结果与发现

指标LoST 与基于 LoD 的基线
Chamfer Distance(越低越好)约提升 30 %
Semantic Consistency(越高越好)约提升 45 %
每个形状的 token 数占先前 AR 模型的 0.1 %–10 %
生成速度(tokens/second)约提升 5×,因为序列更短

定性地说,仅使用 5–10 个 token 生成的形状已经与目标类别相似(例如椅子的靠背和座位),而基于 LoD 的方法需要数十个 token 才能让对象变得可辨认。作者还展示,使用 LoST token 嵌入进行最近邻搜索,比使用原始基于几何的描述符能够得到更语义上准确的检索结果。

实际影响

  • 更快的 3‑D 内容流水线 – 游戏工作室和 AR/VR 开发者可以在更少的计算周期下实时生成高质量资产,从而降低云端成本。
  • 渐进式流式传输 – 由于早期 token 已经传达出可用的粗略模型,应用可以先流式传输低分辨率但语义上正确的形状,然后在客户端随着更多 token 到达逐步细化。
  • 语义搜索与索引 – 资产库可以对 LoST token 进行索引,实现快速、基于意义的检索,提升设计师在查找“现代办公椅”与“复古凳子”时的工作流效率。
  • 紧凑存储 – 仅存储 token 序列(而非完整网格)即可将 3‑D 模型数据库的体积缩小数量级,对移动端或边缘设备尤为有利。
  • 更佳的 AR 生成工具 – 使用文本到 3‑D 或草图到 3‑D 系统的艺术家能够更快获得语义连贯的输出,因为模型在生成过程的早期就已经掌握了高层次形状信息。

限制与未来工作

  • 对 2‑D 语义特征的依赖 – RIDA 利用从渲染视图中提取的 DINO 特征;任何 2‑D 编码器的偏差或失效都会传播到 3‑D 标记化过程。
  • 对高度复杂场景的可扩展性 – 当前实验聚焦于单个物体;将 LoST 扩展到包含多个交互实体的整体场景仍是一个未解决的挑战。
  • 细节分辨率 – 虽然标记数量大幅减少,但超细的几何细微差别(例如复杂的雕刻)可能仍需要额外的标记或混合方法来表示。
  • 跨域泛化能力 – 该方法在常见形状数据集(如 ShapeNet)上进行评估。未来工作可以探索对 CAD 模型、医学扫描或仅点云数据的领域适应。

总体而言,LoST 为实现更具语义感知且高效的 3‑D 生成管线开辟了有前景的道路,弥合了高层理解与低层几何之间的差距。

作者

  • Niladri Shekhar Dutt
  • Zifan Shi
  • Paul Guerrero
  • Chun‑Hao Paul Huang
  • Duygu Ceylan
  • Niloy J. Mitra
  • Xuelin Chen

论文信息

  • arXiv ID: 2603.17995v1
  • 分类: cs.CV, cs.GR, cs.LG
  • 发表时间: 2026年3月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »