[Paper] E-M3RF:一种等变多模态3D重新组装框架

发布: (2025年11月26日 GMT+8 22:12)
6 min read
原文: arXiv

Source: arXiv - 2511.21422v1

概览

本文提出了 E‑M3RF,一种深度学习框架,能够从原始点云扫描中自动重新组装破碎的 3D 物体。通过同时利用几何 表面颜色,并强制旋转等变性,系统预测将每个碎片恢复到正确姿态的 SE(3) 变换——这在纯几何方法上尤其困难,尤其是面对模糊或对称的碎片时。

主要贡献

  • 多模态碎片编码 – 将旋转一致的几何特征(通过等变编码器)与感知颜色的嵌入(通过 Transformer)相结合,以捕获形状和外观两方面信息。
  • SE(3) 流匹配重组 – 在一次前向传播中预测每个碎片的完整 6‑DoF 刚体变换,避免了迭代优化。
  • 物理可行性 – 模型在训练时遵守非重叠约束,降低了物理上不可能的组装。
  • 广泛评估 – 在四个数据集(两个合成、两个文化遗产集合)上的基准测试显示相较于最先进基线的一致提升。
  • 开源实现 – 代码和预训练权重已公开,便于复现和下游应用。

方法论

  1. 输入预处理 – 每个碎片表示为彩色点云(XYZ + RGB)。
  2. 几何分支 – 采用旋转等变神经网络(如 SE(3)‑Transformer 或等变 CNN)提取对碎片方向不变的特征,确保模型能够在任意旋转姿态下推理形状。
  3. 颜色分支 – 标准 Transformer 处理附加在每个点上的 RGB 值,学习上下文颜色模式,以帮助区分对称几何(例如,一侧的红色条纹)。
  4. 融合 – 将两条特征流拼接后送入轻量 MLP,得到 多模态碎片描述符
  5. SE(3) 流预测 – 一个集合到集合的匹配模块预测密集流场,将每个碎片的点对齐到规范的组装空间。随后将流场转换为每个碎片的刚体变换(旋转 + 平移)。
  6. 损失函数 – 训练目标结合 (i) 组装后点云与真实点云之间的 Chamfer Distance,(ii) 旋转/平移回归损失,和 (iii) 碎片重叠惩罚,鼓励物理上合理的组装。

结果与发现

数据集旋转误差 ↓平移误差 ↓Chamfer Distance ↓
RePAIR(真实遗产)相较最佳基线 提升 23.1 %提升 13.2 %提升 18.4 %
Fantastic Breaks(合成)19 %12 %15 %
Breaking Bad(合成)21 %11 %14 %
Presious(真实遗产)20 %10 %13 %
  • 添加颜色后,在几何信息模糊或严重侵蚀的对称碎片上误差始终下降。
  • 等变编码器防止模型“忘记”方向信息,使收敛更平滑且对未见旋转的泛化更好。
  • 与先前方法相比,重叠惩罚将物理上不可能的交叉减少约 30 %。

实际意义

  • 文化遗产修复 – 保存工作者可以快速从低成本 3D 扫描生成碎片化文物的合理重建,加速文档记录与保护流程。
  • 机器人与制造 – 装配机器人能够从部分、噪声传感数据中推断正确部件姿态,无需手工设计的配合管线,适用于分拣或现场维修。
  • AR/VR 内容创作 – 碎片化的 3D 资产(如扫描的废墟、破损道具)可在导入虚拟环境前自动修复,为艺术家节省大量手动重拓扑时间。
  • 质量控制 – 制造商可通过将预测的 SE(3) 布局与设计规格对比,检测装配产品中的错位或缺失部件。

由于模型仅需一次前向传播(在现代 GPU 上约 0.1 s/碎片),且不依赖迭代 ICP,十分适合实时流水线。

局限性与未来工作

  • 对颜色质量的依赖 – 严重风化或单色表面仍会挑战颜色分支;作者建议加入纹理或材质描述符。
  • 对超大规模组装的可扩展性 – 当前的集合到集合匹配随碎片数量呈二次增长;未来可探索层次分组或稀疏注意力。
  • 物理仿真 – 虽然重叠惩罚有帮助,但框架未实现完整的接触力学;与物理引擎耦合可能得到更真实的组装。
  • 对非刚性部件的泛化 – 方法假设碎片为刚体;将其扩展到可变形对象(如可粘合的破碎陶器)仍是开放研究方向。

作者

  • Adeela Islam
  • Stefano Fiorini
  • Manuel Lecha
  • Theodore Tsesmelis
  • Stuart James
  • Pietro Morerio
  • Alessio Del Bue

论文信息

  • arXiv ID: 2511.21422v1
  • 分类: cs.CV
  • 发布日期: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »