[Paper] Raster2Seq: 用于平面图重建的多边形序列生成
发布: (2026年2月10日 GMT+8 02:58)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.09016v1
Overview
Raster2Seq 解决了一个出乎意料常见的问题——将建筑平面图的栅格图像转换为干净、可编辑的矢量表示。作者将每个房间、门窗视为 标记多边形序列,把重建任务转化为序列到序列的问题,能够使用现代自回归模型来求解。该系统能够可靠地从即使是最杂乱、包含多个房间的平面图中提取几何形状和语义信息——为下游的 CAD 自动化、室内导航 AI 和房地产分析打开了大门(双关语)。
关键贡献
- 基于序列的表示:将每个平面图元素编码为有序的 (x, y) 顶点列表加上语义标签,在单一流中统一几何和意义。
- 可学习的空间锚点:引入一组可训练的坐标“锚点”,在预测下一个顶点时引导解码器的注意力聚焦到最信息丰富的图像区域。
- 自回归解码器:在图像特征以及先前生成的顶点的条件下预测每个角点,实现对任意顶点数多边形的灵活处理。
- 领先的性能:在 Structure3D、CubiCasa5K 和 Raster2Graph 上设立新基准,并在具有挑战性的 WAFFLE 数据集上表现出强大的泛化能力。
- 可扩展至复杂布局:展示该方法能够优雅地扩展到拥有数十个房间和高度不规则形状的平面图,而无需手工后处理。
方法论
- 特征提取 – 使用 CNN 主干网络处理输入的栅格平面图,并生成密集特征图。
- 锚点初始化 – 在图像坐标系中放置一小组可学习的锚点(例如 64 个)。在训练过程中,它们会迁移到最有助于定位拐角的位置。
- 自回归解码 – 解码器是一个 Transformer 风格的序列模型。每一步它接收:
- 当前隐藏状态,
- 在锚点位置采样的特征图,和
- 先前输出的顶点。
然后预测下一个 (x, y) 坐标以及关联的语义标签(房间、门、窗等)。
- 多边形结束 – 一个特殊的 “END” 标记表示多边形完成;另一个 “NEXT‑OBJECT” 标记用于开始新的元素。
- 训练目标 – 组合损失同时惩罚坐标回归误差(L1)和分类误差(交叉熵),促使模型学习精确的几何形状和正确的语义。
由于解码器逐步工作,它能够自然适应任意大小的多边形——无需固定长度的输出或复杂的图匹配后处理。
结果与发现
| 数据集 | 指标 (IoU / F‑score) | 相较于前沿技术的提升 |
|---|---|---|
| Structure3D | 0.92 IoU | +4.3 % |
| CubiCasa5K | 0.88 F‑score | +5.1 % |
| Raster2Graph | 0.90 IoU | +3.8 % |
| WAFFLE (out‑of‑domain) | 0.84 IoU | +6.7 % |
- 更高的拐角精度:平均顶点误差从约 3 像素(之前的方法)下降到 <1 像素,得益于锚点引导的注意力机制。
- 语义鲁棒性:门/窗的误标率降至 2 % 以下,使下游 CAD 流程更加可靠。
- 速度:在单个 RTX 3080 上,对 1024×1024 的平面图推理速度约为 15 fps,具备实时应用的实用性。
实际意义
- Automated CAD import – 开发者可以将扫描的蓝图输入 Raster2Seq,获取干净的 DXF/DWG 文件,无需手动追踪,从而显著减少工程工时。
- Indoor‑navigation AI – 机器人平台可以即时将平面图图像转换为可用于路径规划和 SLAM 的图形化地图。
- Real‑estate tech – 房产门户可以自动生成交互式平面图查看器,用户可点击房间获取详细信息或进行虚拟导览。
- Facility management – 维护软件可以导入传统纸质平面图,并将传感器数据直接叠加到矢量化的房间、门窗上。
- Extensible pipeline – 由于输出是简单的序列,开发者可以将模型轻松接入现有的 GIS 或 BIM 工具,几乎不需要额外的胶水代码。
限制与未来工作
- 锚点数量敏感性 – 锚点过少会降低超高分辨率平面图的性能;论文指出内存与精度之间的权衡。
- 复杂线条样式 – 强烈风格化或低对比度的图纸仍会导致偶发的顶点错位。
- 3‑D 扩展 – 当前的公式仅限于二维;将该方法扩展到多层建筑模型仍是一个未解决的挑战。
- 训练数据偏差 – 基准测试主要由住宅平面图构成;作者建议收集更多商业和工业平面图以提升泛化能力。
总体而言,Raster2Seq 证明了精心设计的序列模型能够弥合光栅图像与结构化矢量图形之间的鸿沟,为 CAD、机器人以及房地产技术领域的开发者提供了实用的工具集。
作者
- Hao Phung
- Hadar Averbuch-Elor
论文信息
- arXiv ID: 2602.09016v1
- 分类: cs.CV
- 出版日期: 2026年2月9日
- PDF: 下载 PDF