[Paper] 重新利用 3D 生成模型进行自回归布局生成

发布: 2天前 (2026年4月18日 GMT+8 01:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.16299v1

概述

本文提出了 LaviGen，一个新颖的框架，能够复用已有的 3D 生成模型来创建逼真的 3D 对象布局。LaviGen 并不是将文本提示转换为布局，而是直接在三维空间中工作，并将布局生成视为自回归序列，显式地推理几何形状、对象关系和物理约束。其结果是更快、更符合物理规律的场景合成——这一进展有望简化 AR/VR、游戏设计和机器人领域的内容创作。

关键贡献

自回归 3‑D 布局生成：将布局合成表述为逐步预测问题，自然捕获空间依赖性。
重新利用 3‑D 扩散模型：在无需从头训练的情况下，调整预训练的 3‑D 生成模型以接受场景级、对象级和指令线索。
双引导自回滚蒸馏：提出一种蒸馏技术，同时使用几何约束和学习到的回滚策略引导模型，提升速度和空间精度。
显著的性能提升：在 LayoutVLM 基准上实现约 19 % 更高的物理合理性以及约 65 % 更快的推理速度，超越前沿水平。
开源发布：提供代码和预训练权重，支持即时实验和集成。

方法论

问题表述 – LaviGen 将 3‑D 场景视为有序的对象列表。每一步，模型在已放置对象的条件下预测下一个对象的类别、位置、方向和尺度。
基础模型 – 采用标准的 3‑D 扩散模型（在点云/体素网格上训练）进行再利用。作者注入了三类信息：
- 场景上下文（整体房间大小、平面图）。
- 对象上下文（先前放置的物品）。
- 指令上下文（高层用户意图，例如 “在桌子旁放一把椅子”）。
双引导自回滚蒸馏 –
- 几何引导：轻量级物理引擎检查碰撞和稳定性，并反馈纠正信号。
- 自回滚引导：模型在训练期间回滚一个短的未来序列，教师网络将回滚中的“好”决策蒸馏回学生模型。
  这种双管齐下的引导使自回归解码器在保持计算成本低的同时学会遵守物理约束。
训练与推理 – 系统在布局数据集（如 LayoutVLM）上进行微调，使用扩散损失、自回归交叉熵和蒸馏损失的组合。推理时，模型对每个对象只需一次前向传播即可生成布局，显著降低延迟。

结果与发现

指标	LaviGen	Prior SOTA	Δ
物理可行性（无碰撞，稳定）	0.84	0.71	+19 %
布局质量（与真实值的 IoU）	0.68	0.61	+11 %
每场景推理时间	0.42 s	1.20 s	–65 %
多样性（每个提示的唯一布局）	0.73	0.66	+10 %

物理可行性：LaviGen 的双重引导显著降低了物体之间的碰撞以及不现实的漂浮物体。
速度：自回归展开加上蒸馏减少了所需的扩散步数，实现了接近实时的生成。
泛化能力：该模型能够在各种室内环境（房间、办公室、厨房）中工作，无需针对每个场景重新训练。

实际意义

Content pipelines for AR/VR and games – 设计师可以通过提供高级指令快速原型化房间布局，让 LaviGen 填充符合物理规律的对象摆放。
Robotics and simulation – 自动化代理需要真实的测试环境；LaviGen 能生成多样的、无碰撞的场景，用于训练感知和操作模型。
E‑commerce & interior design tools – 用户可以描述期望的布局（“一张沙发面对电视”），并立即获得可即时渲染的 3‑D 布局，加速可视化工作流。
Reduced compute budget – 65 % 的加速意味着基于云的布局服务每个 GPU 能处理更多请求，从而降低运营成本。

限制与未来工作

场景复杂度上限 – 实验集中在中等规模的室内房间；扩展到大型、多房间环境可能需要层次化规划。
依赖预训练扩散模型 – 质量受底层 3‑D 生成器的限制；提升扩散模型的骨干网络可能进一步提升结果。
文本定位有限 – 虽然指令通道引导放置，但对细腻语言（例如“一个舒适的阅读角落”）的捕捉仍不完整。

未来的研究方向包括针对广阔空间的层次自回归生成、与语言模型更紧密的集成以实现更丰富的语义控制，以及将该框架扩展到户外或混合现实场景。

作者

Haoran Feng
Yifan Niu
Zehuan Huang
Yang‑Tian Sun
Chunchao Guo
Yuxin Peng
Lu Sheng

论文信息

arXiv ID: 2604.16299v1
分类: cs.CV
发表时间: 2026年4月17日
PDF: 下载 PDF

[Paper] 重新利用 3D 生成模型进行自回归布局生成

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[论文] Hero-Mamba：基于 Mamba 的双域学习用于水下图像增强

[Paper] 信息路由器用于缓解视觉语言模型中的模态主导性

[Paper] 视觉语言模型的失效点在哪里？全球尺度图像地理定位分析