[Paper] IDT:一种基于物理的 Transformer 用于前馈多视角固有分解
发布: (2025年12月30日 GMT+8 02:24)
7 min read
原文: arXiv
Source: arXiv - 2512.23667v1
概述
本文介绍了 Intrinsic Decomposition Transformer (IDT),一种前馈神经网络架构,能够在一次前向传播中将一组多视角 RGB 图像分解为物理上有意义的分量——漫反射反射率、漫反射光照和高光光照。通过在视角之间使用 Transformer 风格的注意力机制,IDT 能够生成一致的内在图,且无需扩散式方法所需的高成本迭代采样,使得多视角内在分解在实际工作流中变得可行。
关键贡献
- 基于 Transformer 的多视角推理: 使用自注意力机制联合处理任意数量的输入视角,强制跨视角一致性。
- 物理基础的因式分解: 明确建模图像形成方程 I = R·S_d + S_s,将朗伯(漫反射)和非朗伯(镜面)传输分离。
- 前馈设计: 消除迭代生成步骤,使其能够在普通 GPU 硬件上实现实时推理。
- 提升视觉质量: 与之前的单视角和多视角基线相比,生成更干净的漫反射反照率、更平滑的阴影以及更孤立的镜面高光。
- 广泛评估: 在合成基准数据集和真实世界捕获的两类数据上,展示了更优的定量指标和定性结果。
方法论
- 输入处理: 将来自不同相机姿态的可变长度 RGB 图像列表输入共享的 CNN 编码器,提取每像素特征图。
- 跨视图注意力: 将特征图展平为 token 并通过标准的 transformer 编码器。自注意力使每个 token “看到”所有其他视图的信息,从而网络能够学习视图不变的材质线索,同时保留视图相关的光照线索。
- 物理感知解码器: transformer 输出被拆分为三个分支,每个分支由轻量级 CNN 头解码以预测:
- 漫反射反射率 (R) – 表面的固有颜色。
- 漫反射阴影 (S_d) – 符合 Lambert 余弦定律的光照。
- 镜面阴影 (S_s) – 与视角相关的高光。
三个输出使用图像形成模型 I = R·S_d + S_s 进行组合,以重建输入,提供隐式的自监督信号。
- 损失函数:
- 重建损失(重建图像与原始图像之间的 L1)。
- 反射率一致性损失(跨视图,鼓励同一表面点的反照率相同)。
- 阴影平滑性和镜面稀疏性正则项,以强制物理上合理的行为。
- 训练: 网络在合成数据集上端到端训练(可获得真实的内在分量),随后在真实捕获数据上使用自监督的重建损失进行微调。
结果与发现
| 数据集 | 指标(越低越好) | 漫反射反照率误差 | 阴影一致性 | 高光分离 |
|---|---|---|---|---|
| 合成多视图 (SYN‑MV) | MAE(反照率) | 0.042(对比 0.067) | 0.018(对比 0.031) | 0.021(对比 0.038) |
| 实际捕获 (RWC) | 视觉一致性得分 | 0.73(对比 0.58) | — | — |
- 更纯净的反照率: IDT 去除了视角相关的颜色泄漏,使材料颜色在不同角度下保持一致。
- 一致的阴影: 漫反射阴影图在不同视点之间平滑,反映出一致的光照。
- 高光分离: 高光被隔离到高光分支,便于后续的重新照明或材质编辑。
- 速度: 一个完整的多视图批次(8 × 512×512 图像)在 RTX 3090 上约 120 ms 完成,远快于需要每视图数秒的基于扩散的迭代方法。
实际意义
- 实时重光与 AR: 开发者可以实时提取视角一致的反照率和阴影,从而在混合现实应用中实现动态光照变化,而无需重新渲染整个场景。
- 材质数字化: 干净的漫反射贴图简化了游戏资产或产品可视化的纹理创建,而高光贴图可以直接用于 PBR 流程。
- 机器人与感知: 一致的内在分解有助于在光照变化下实现光照不变的目标检测和表面属性估计,支持自主代理的运行。
- 内容创作工具: 由于分离出的组件,照片编辑软件可以提供“材质感知”的调整(例如重新着色、去除高光),并遵循底层物理规律。
- 可扩展的流水线: 由于 IDT 为前馈结构,可集成到批处理或流式系统中,无需扩散模型中占用大量内存的采样循环。
限制与未来工作
- 依赖准确姿态: 当前实现假设已知相机外参;姿态估计误差会降低一致性。
- 合成到真实的差距: 虽然微调有帮助,但模型仍难以应对训练中未出现的极端户外光照(例如强烈的方向性阳光)。
- 训练期间视图数量固定: 虽然推理时可接受可变长度,但网络针对特定范围(4–8 个视图)进行优化,视图极稀或极密时性能可能下降。
- 未来方向: 作者建议融合学习式姿态细化,扩充包含更多多样化真实场景的训练语料库,并探索层次化 Transformer,以处理数千个视图的大规模场景重建。
作者
- Kang Du
- Yirui Guan
- Zeyu Wang
论文信息
- arXiv ID: 2512.23667v1
- 类别: cs.CV
- 发布时间: 2025年12月29日
- PDF: Download PDF