[Paper] SeeThrough3D:遮挡感知的3D控制在文本到图像生成中
发布: (2026年2月27日 GMT+8 02:59)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.23359v1
Overview
论文 SeeThrough3D 解决了文本到图像生成中缺失的一环:遮挡感知。虽然现代扩散模型能够根据文本提示和二维布局绘制出逼真的场景,但它们常常忽视对象的深度顺序,导致不真实的重叠(例如,一辆车出现在“前面”而实际上应该在树后面)。作者提出了一套以 3‑D 为中心的流水线,让开发者不仅可以指定对象的位置,还可以指定它们相互遮挡的方式,同时仍然能够完全控制虚拟相机。
关键贡献
- 遮挡感知 3‑D 场景表示 (OSCR): 对象被编码为半透明的 3‑D 框,其透明度指示隐藏的几何形状。
- 相机控制渲染: 轻量级渲染器可以从任意期望的视点生成 2‑D 视图,实现生成过程中的显式姿态控制。
- 视觉令牌注入: 将渲染得到的 OSCR 视图转换为视觉令牌序列,以此条件化预训练的基于流的文本到图像扩散模型。
- 遮罩自注意力绑定: 每个对象令牌与其文本描述紧密耦合,防止属性在对象之间混合。
- 合成遮挡丰富数据集: 大规模、程序化生成的多对象场景集合,具有强烈的对象间遮挡,用于训练系统。
- 零样本泛化: 模型能够在无需重新训练的情况下处理未见过的对象类别和新颖的相机角度。
方法论
- Scene Encoding – 对于每个对象,用户提供一个 3‑D 边界框(位置、尺寸、方向)和文本标签。该框体渲染为半透明的立方体;透明度的程度编码了该对象被其他对象遮挡的程度。
- View Synthesis – 一个简单的可微渲染器将半透明的盒子从用户选择的相机姿态(方位角、仰角、距离)投影到二维画布上。输出是一个 layout image,其中已经包含了深度一致的遮挡线索。
- Tokenization – 将布局图像划分为若干补丁,并嵌入为视觉标记序列(类似于 VQ‑VAE 或基于 CLIP 的标记器)。
- Conditioning the Diffusion Model – 将这些视觉标记与文本提示标记拼接后输入预训练的基于流的扩散模型。遮罩自注意力层确保每个对象标记仅关注其自身描述,保持属性的忠实度。
- Training – 整个条件管线在合成数据集上进行训练,数据集中的真实图像使用完美遮挡渲染。扩散模型的主干保持冻结,仅学习标记注入和注意力模块。
该系统能够接受诸如 “a red sports car behind a palm tree” 之类的提示,结合 3‑D 布局和相机规格,生成一幅照片级真实感的图像,其中汽车正确地被树遮挡。
结果与发现
- 定量增益: 在保留的测试集上,SeeThrough3D 将遮挡相关错误(通过可见区域的 Intersection‑over‑Union 衡量)相比最先进的布局条件扩散模型降低约 30 %。
- 定性改进: 视觉对比显示“漂浮”物体显著减少,深度线索更连贯,尤其是在包含多个重叠物体的拥挤场景中。
- 泛化能力: 该模型能够成功合成训练中未见过的物体(例如“风筝”或“冲浪板”)的场景,同时保持正确的遮挡顺序。
- 相机灵活性: 用户可以在布局定义后旋转虚拟相机,生成的图像会一致更新,展示了真正的 3‑D 控制。
实际意义
- Game and VR asset pipelines: 设计师可以脚本化复杂场景(位置、深度、相机角度),并在无需手动绘制遮挡的情况下获得高保真概念艺术。
- E‑commerce & AR visualizers: 零售商可以将产品放置在其他物品的前后(例如,桌面上的手机放在咖啡杯后面),并实时生成逼真的营销图片。
- Automated storyboard creation: 电影制作人可以定义场景几何体,让模型渲染符合正确深度的分镜帧,从而节省手动布局调整的时间。
- Data augmentation for perception models: 具有精确遮挡模式的合成训练数据可以提升目标检测和深度估计模型的性能,尤其是在自动驾驶等安全关键领域。
限制与未来工作
- 合成训练偏差: 该模型在程序生成的场景上进行训练;真实世界的纹理、光照变化以及复杂几何(非盒状形状)可能未被完美捕捉。
- 仅盒子几何: 将对象表示为立方体会限制细粒度遮挡细节(例如树枝)。将 OSCR 扩展到基于网格或隐式表示的方式可能提升真实感。
- 标记注入的可扩展性: 随着场景复杂度的提升,视觉标记数量增加,可能会给扩散模型的上下文窗口带来压力。未来工作可以探索层次化标记压缩或稀疏注意力。
- 交互式编辑: 当前流水线是离线的;将实时编辑(拖拽对象)集成进去将使系统对设计师更易用。
总体而言,SeeThrough3D 将文本到图像生成推向更接近真实 3D 推理的一步,为需要对场景构图和相机视角进行精确控制的开发者打开了新大门。
作者
- Vaibhav Agrawal
- Rishubh Parihar
- Pradhaan Bhat
- Ravi Kiran Sarvadevabhatla
- R. Venkatesh Babu
论文信息
- arXiv ID: 2602.23359v1
- 分类: cs.CV, cs.AI
- 出版日期: 2026年2月26日
- PDF: 下载 PDF