[Paper] Layout Anything:一种用于通用房间布局估计的 Transformer

发布: (2025年12月3日 GMT+8 01:28)
6 min read
原文: arXiv

Source: arXiv - 2512.02952v1

概述

Layout Anything 引入了一种单一 Transformer 模型,能够直接从单张 RGB 图像预测室内场景的 3‑D 房间布局。通过改造通用的 OneFormer 分割架构,作者实现了高质量的布局估计,省去了传统上困扰该任务的繁琐后处理步骤,使得该方法既快速(≈114 ms/图像),又可直接用于真实场景的 AR/VR 流程。

主要贡献

  • 统一的 Transformer 架构 – 重新利用 OneFormer 的任务条件查询机制进行几何布局预测,消除了对独立分割和几何模块的需求。
  • 布局退化增强 – 一种拓扑感知的数据增强方案,能够在保持 Manhattan‑world 约束的前提下合成“退化”房间布局,显著扩展训练多样性。
  • 可微分几何损失 – 引入平面一致性损失和锐利边界损失,全部可微分,使网络能够直接学习几何,而不依赖启发式后处理。
  • 实时推理 – 优化的端到端流水线在单个 GPU 上约 114 ms/图像,较之前的最先进方法有显著加速。
  • 最先进的基准 – 在 LSUN、Hedau 和 Matterport3D‑Layout 数据集上创下新纪录(例如 LSUN 上像素误差 5.43 %)。

方法论

  1. 骨干网络与查询设计 – 模型基于 OneFormer 的 Transformer 编码器‑解码器。注入一组任务条件查询,每个查询专门预测特定的几何基元(墙、地板、天花板)。
  2. 布局退化 – 训练期间,真实布局会被转换(如墙体移除、角点扰动),但仍遵守 Manhattan‑world 正交性。这样可以在不破坏底层几何的情况下生成更丰富的“硬”样本。
  3. 几何损失
    • 平面一致性损失:鼓励属于同一平面(墙/地板/天花板)的点拥有相似的法向量。
    • 锐利边界损失:惩罚相邻平面之间的模糊过渡,推动网络产生清晰的边缘预测。
  4. 端到端训练 – 所有组件均可微分,模型直接从图像输出完整的布局图,省去任何独立的线检测或聚类步骤。

结果与发现

数据集像素误差 (PE)角点误差 (CE)
LSUN5.43 %4.02 %
Hedau7.04 %5.17 %
Matterport3D‑Layout4.03 %3.15 %
  • 模型始终比之前的方法降低 0.5–2 % 的绝对误差。
  • 定性可视化显示墙体边界更整齐、正交,伪影更少。
  • 推理速度(≈114 ms)比之前的最佳实时方法快约 2–3 倍,适用于设备端 AR 场景。

实际意义

  • 增强现实与室内导航 – 开发者可将模型集成到移动 AR 应用中,实时生成房间几何用于物体放置、遮挡处理或路径规划。
  • 3‑D 重建流水线 – 快速、准确的布局图可作为多视角或 LiDAR 增强重建的强先验,降低对稠密点云的依赖。
  • 机器人与场景理解 – 服务机器人可利用布局预测推断可通行空间和障碍位置,无需昂贵的 SLAM 后端。
  • 内容创作 – 室内设计工具可从照片自动生成平面图,加速建筑师和房地产平台的工作流。

由于系统是单一 Transformer 模型,可导出为 ONNX 或 TensorRT 并在边缘 GPU 上运行,为低延迟、设备端部署打开了大门。

局限性与未来工作

  • Manhattan‑World 假设 – 当前设计假设墙体正交;高度不规则或弧形的室内环境可能导致性能下降。
  • 单图像输入 – 虽然高效,但仅依赖一帧 RGB 限制了深度感知;融合深度或多视角信息可提升在杂乱场景中的准确性。
  • 对室外/混合空间的泛化 – 模型在室内数据集上训练;若要扩展到室内‑室外混合环境,需要额外数据并可能对架构进行调整。

未来研究方向包括通过学习的先验放宽 Manhattan 约束、引入深度传感器获取更丰富的几何信息,以及探索轻量化 Transformer 变体以适配超低功耗设备。

作者

  • Md Sohag Mia
  • Muhammad Abdullah Adnan

论文信息

  • arXiv ID: 2512.02952v1
  • 分类: cs.CV
  • 发表时间: 2025 年 12 月 2 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »