[Paper] Voxify3D：像素艺术遇上体积渲染

发布: 1周前 (2025年12月9日 GMT+8 02:59)

7 min read

原文: arXiv

Source: arXiv - 2512.07834v1

概览

Voxify3D 解决了游戏开发者和数字艺术家长期面临的一个难题：将高分辨率 3D 网格自动转换为真实的体素风格像素艺术。通过将可微分的 3D 网格优化与 2D 像素艺术监督相结合，作者提供了一条在保持语义形状的同时实现现代体素游戏所需的锐利、调色板受限外观的流水线。

关键贡献

正交像素艺术监督 – 从正视图渲染 3D 模型，避免透视失真，实现体素与像素艺术“像素”之间的一对一映射。
基于 Patch 的 CLIP 对齐 – 利用 CLIP 的视觉‑语言嵌入对局部 Patch 进行对齐，即使在激进的体素量化后也能保持高级语义完整性。
调色板约束的 Gumbel‑Softmax 量化 – 一种可微分技巧，使网络能够从固定调色板（2–8 种颜色）中挑选颜色，同时仍可端到端训练。
两阶段可微分框架 – 首先细化网格几何，随后优化体素颜色，弥合连续 3D 几何与离散体素艺术之间的鸿沟。
大量用户研究与量化指标 – 在多种角色模型上实现了 37.12 的 CLIP‑IQA 分数，并以 77.90 % 的用户偏好率超越已有方法。

方法论

阶段 1 – 几何优化

将输入网格正交渲染到低分辨率体素网格中。
可微分体积渲染器反向传播像素艺术损失，推动顶点位置调整，使轮廓与目标像素艺术形状匹配。

阶段 2 – 颜色优化

每个体素的 RGB 值通过 Gumbel‑Softmax 层，强制输出为 k 种调色板颜色中的一种（调色板可由用户自定义）。
基于 Patch 的 CLIP 损失比较渲染的体素 Patch 与原始像素艺术 Patch，促使体素颜色传达相同的语义线索（例如 “头盔”、 “盔甲”）。

训练循环

两个阶段共同端到端训练。正交视角消除了透视扭曲，使像素艺术监督能够直接与体素输出进行比较。
Gumbel‑Softmax 技巧在离散颜色选择的情况下仍保持可微分，从而可以使用标准梯度下降工具进行优化。

结果与发现

量化指标：Voxify3D 在 CLIP‑IQA 指标上得分 37.12（分数越高越好），大幅领先于之前的最新技术。
用户偏好：在 150 名参与者的盲测中，77.90 % 的受访者更喜欢 Voxify3D 的输出而非竞争流水线。
控制粒度：系统可指示使用最少 2 种颜色 或最多 8 种颜色，并在分辨率比源网格低 20×–50× 的情况下仍保持可辨识的细节。
语义保真度：基于 Patch 的 CLIP 对齐被证明是关键；去除该模块的消融实验导致角色身份明显丢失（例如头盔变成普通方块）。

实际意义

游戏资产流水线 – 工作室现在可以直接从高多边形模型生成体素风格的角色和道具，将手动重拓扑时间降低数个数量级。
快速原型 – 独立开发者可以即时尝试不同的调色板约束（复古 4‑色、现代 8‑色），实现快速视觉迭代。
跨平台一致性 – 由于输出是确定性的体素网格，同一资产可无缝部署到低端移动、Web‑GL 或主机平台，无需额外烘焙步骤。
工具集成 – 可将可微分流水线封装为 Unity 或 Unreal 的插件，提供一个 “Voxelify” 按钮，在后台运行两阶段优化。
内容生成 API – 云服务可以将 Voxify3D 作为端点暴露，支持为社交 VR 或基于头像的聊天应用程序程序化生成体素化头像。

局限性与未来工作

正交视角限制 – 当前监督假设固定正视图；旋转对象可能需要多次渲染或更通用的相机模型。
调色板大小权衡 – 虽然 2–8 种颜色适用于风格化角色，但高度细节化的场景可能需要更大的调色板，而现有的 Gumbel‑Softmax 方案对其支持不够优雅。
对大场景的可扩展性 – 本方法聚焦单个网格；将其扩展到整个环境（如体素化关卡）需要更高效的体积渲染和内存管理。
未来方向 – 作者建议探索多视角监督、自适应调色板学习以及与神经纹理合成的结合，以扩大其在角色模型之外的适用范围。

作者

黄奕川
陈杰文
简浩仁
刘宇伦

论文信息

arXiv ID: 2512.07834v1
分类: cs.CV
发表时间: 2025 年 12 月 8 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] Spatia：可更新空间记忆的视频生成

现有的视频生成模型由于视频信号的密集和高维特性，在保持长期的空间和时间一致性方面面临困难。为了……

[Paper] 追求像素监督以进行视觉预训练

在最基本的层面上，像素是我们感知世界的视觉信息来源。像素在所有层面上都包含信息，范围……

[Paper] DiffusionVL：将任意 Autoregressive 模型翻译为 Diffusion Vision Language Models

在最近的多模态研究中，diffusion paradigm 已经崭露头角，成为 autoregressive paradigm (AR) 的一种有前景的替代方案，因为它独特的解码……

[Paper] Gaussian Pixel Codec Avatars：一种用于高效渲染的混合表示

我们提出了 Gaussian Pixel Codec Avatars（GPiCA），一种可以从多视角图像生成并在移动设备上高效渲染的逼真头部化身。