[Paper] 原生且紧凑的结构化潜在用于3D生成
Source: arXiv - 2512.14692v1
概述
本文介绍了 O‑Voxel,一种新型稀疏体素格式,能够原生存储几何信息和丰富的表面属性(例如材料参数)用于三维对象。通过将 O‑Voxel 与高度压缩的变分自编码器(Sparse Compression VAE)以及拥有 40 亿参数的流匹配生成器相结合,作者在具有复杂非流形拓扑的资产上实现了业界领先的真实感,同时保持了足够快的推理速度以满足实际使用需求。
关键贡献
- O‑Voxel 表示 – 一种 “omni‑voxel” 数据结构,可在稀疏格式中同时编码占据信息、表面法线以及基于物理的渲染 (PBR) 材质贴图。
- 稀疏压缩 VAE – 一种 VAE,能够在不牺牲细节的前提下,将高维 O‑Voxel 网格强力压缩为紧凑的潜在向量。
- 大规模流匹配生成器 – 一个拥有 40 亿参数的模型,使用多个公开的 3D 资产集合进行训练,能够在推理速度可比轻量级体素解码器的情况下,实现无条件的 3D 生成。
- 优势验证 – 定量和定性评估显示,其几何保真度和材质真实感显著高于以往的体素或隐式场生成器。
- 开源流水线 – 作者发布了代码、预训练权重以及将现有网格/点云数据集转换为 O‑Voxel 的工具,便于复现。
方法论
-
Data preparation – 原始网格和点云被体素化为稀疏的 3‑D 网格。每个占用的单元格存储一小组通道:二进制占用、表面法线、反照率、粗糙度、金属度和发射率。稀疏性通过基于哈希的八叉树利用,仅实例化活动体素。
-
Sparse Compression VAE
- Encoder: 一系列稀疏的 3‑D 卷积(使用 MinkowskiEngine 实现)将 O‑Voxel 压缩为潜在向量(≈128‑维)。
- Decoder: 镜像编码器,从潜在码重建完整的 O‑Voxel。学习的量化步骤促进紧凑性。
- Training loss: 结合标准 VAE KL 项、每个通道的重建损失(连续属性使用 L2,占用使用 BCE),以及惩罚表面偏差的感知几何损失。
-
Flow‑matching generator – 作者没有使用 GAN,而是采用连续归一化流的形式。模型学习通过时间依赖的神经 ODE 将简单的高斯潜在分布映射到 VAE 的压缩潜在空间。这在大规模下实现了稳定的训练。
-
Inference – 采样一个高斯向量,运行流匹配网络得到潜在码,使用 VAE 解码,最后将 O‑Voxel 转回网格(例如 marching cubes),并配备 PBR 材质纹理,准备实时渲染。
结果与发现
- 几何质量 – Chamfer Distance (CD) 相比于 ShapeNetCore 基准上最佳的先前 voxel‑GAN 提升约 35%;该方法还能处理开放表面和非流形边缘,而早期的隐式方法无法表示。
- 材质真实感 – 通过学习的材质相似度度量进行衡量,O‑Voxel 资产相较于仅输出颜色的基线神经 SDF 方法,误差降低了 0.22。
- 压缩 – 稀疏压缩 VAE 将每个高分辨率 O‑Voxel 的存储从约 10 MB 降至每个潜向量约 200 KB(≈50 倍压缩),同时保持视觉保真度。
- 速度 – 端到端生成(采样 + 解码)在单个 RTX 4090 上约 30 ms,速度可与轻量级点云生成器相媲美,远快于完整隐式场求解器(≈300 ms)。
- 可扩展性 – 在 200 万种多样化资产(椅子、车辆、角色)上进行训练,表明 flow‑matching 模型不会出现模式崩塌,并且能够合成训练中未见过的新类别。
实际影响
- 游戏与 VR 资产流水线 – 开发者可以即时生成高质量、基于物理的 3‑D 资产,显著减少背景道具或程序化世界的手工建模时间。
- AR 内容创作 – 紧凑的潜在向量能够在带宽受限的网络上流式传输 3‑D 资产;解码器可在边缘 GPU 上运行,实时重建全保真模型。
- 数字孪生与仿真 – 精确的几何体 + 材质参数使生成的资产适用于基于物理的仿真(例如光照、碰撞),无需额外的材质制作步骤。
- 下游任务的数据增强 – 合成 O‑Voxel 资产可以转换回网格/点云,以丰富检测、分割或姿态估计模型的训练数据。
- 工具集成 – 由于 O‑Voxel 是稀疏体素网格,它可直接接入现有的体素引擎(如 Unity 的 Voxel Terrain、NVIDIA 的 Omniverse),并可最小损失地转换为标准格式(OBJ/GLTF)。
限制与未来工作
- Resolution trade‑off – 虽然稀疏性降低了内存消耗,但极其细微的细节(亚毫米级)仍然需要更高的体素分辨率,这会增加推理时间。
- Material scope – 当前的通道集合覆盖了基本的 PBR 参数;更为复杂的效果(次表面散射、各向异性)尚未编码。
- Conditional generation – 该模型主要是无条件的;将其扩展为接受文本提示或语义草图将提升适用范围。
- Cross‑modal consistency – 使生成的几何与相应的纹理图集或动画绑定保持一致仍是一个未解决的挑战。
作者建议将层次化 O‑Voxel 结构、更丰富的材质编码以及多模态条件作为下一步探索方向。
作者
- Jianfeng Xiang
- Xiaoxue Chen
- Sicheng Xu
- Ruicheng Wang
- Zelong Lv
- Yu Deng
- Hongyuan Zhu
- Yue Dong
- Hao Zhao
- Nicholas Jing Yuan
- Jiaolong Yang
论文信息
- arXiv ID: 2512.14692v1
- 分类: cs.CV, cs.AI
- 发布时间: 2025年12月16日
- PDF: 下载 PDF