[Paper] E-M3RF:一种等变多模态3D重新组装框架
发布: (2025年11月26日 GMT+8 22:12)
6 min read
原文: arXiv
Source: arXiv - 2511.21422v1
概览
本文提出了 E‑M3RF,一种深度学习框架,能够从原始点云扫描中自动重新组装破碎的 3D 物体。通过同时利用几何 和 表面颜色,并强制旋转等变性,系统预测将每个碎片恢复到正确姿态的 SE(3) 变换——这在纯几何方法上尤其困难,尤其是面对模糊或对称的碎片时。
主要贡献
- 多模态碎片编码 – 将旋转一致的几何特征(通过等变编码器)与感知颜色的嵌入(通过 Transformer)相结合,以捕获形状和外观两方面信息。
- SE(3) 流匹配重组 – 在一次前向传播中预测每个碎片的完整 6‑DoF 刚体变换,避免了迭代优化。
- 物理可行性 – 模型在训练时遵守非重叠约束,降低了物理上不可能的组装。
- 广泛评估 – 在四个数据集(两个合成、两个文化遗产集合)上的基准测试显示相较于最先进基线的一致提升。
- 开源实现 – 代码和预训练权重已公开,便于复现和下游应用。
方法论
- 输入预处理 – 每个碎片表示为彩色点云(XYZ + RGB)。
- 几何分支 – 采用旋转等变神经网络(如 SE(3)‑Transformer 或等变 CNN)提取对碎片方向不变的特征,确保模型能够在任意旋转姿态下推理形状。
- 颜色分支 – 标准 Transformer 处理附加在每个点上的 RGB 值,学习上下文颜色模式,以帮助区分对称几何(例如,一侧的红色条纹)。
- 融合 – 将两条特征流拼接后送入轻量 MLP,得到 多模态碎片描述符。
- SE(3) 流预测 – 一个集合到集合的匹配模块预测密集流场,将每个碎片的点对齐到规范的组装空间。随后将流场转换为每个碎片的刚体变换(旋转 + 平移)。
- 损失函数 – 训练目标结合 (i) 组装后点云与真实点云之间的 Chamfer Distance,(ii) 旋转/平移回归损失,和 (iii) 碎片重叠惩罚,鼓励物理上合理的组装。
结果与发现
| 数据集 | 旋转误差 ↓ | 平移误差 ↓ | Chamfer Distance ↓ |
|---|---|---|---|
| RePAIR(真实遗产) | 相较最佳基线 提升 23.1 % | 提升 13.2 % | 提升 18.4 % |
| Fantastic Breaks(合成) | 19 % | 12 % | 15 % |
| Breaking Bad(合成) | 21 % | 11 % | 14 % |
| Presious(真实遗产) | 20 % | 10 % | 13 % |
- 添加颜色后,在几何信息模糊或严重侵蚀的对称碎片上误差始终下降。
- 等变编码器防止模型“忘记”方向信息,使收敛更平滑且对未见旋转的泛化更好。
- 与先前方法相比,重叠惩罚将物理上不可能的交叉减少约 30 %。
实际意义
- 文化遗产修复 – 保存工作者可以快速从低成本 3D 扫描生成碎片化文物的合理重建,加速文档记录与保护流程。
- 机器人与制造 – 装配机器人能够从部分、噪声传感数据中推断正确部件姿态,无需手工设计的配合管线,适用于分拣或现场维修。
- AR/VR 内容创作 – 碎片化的 3D 资产(如扫描的废墟、破损道具)可在导入虚拟环境前自动修复,为艺术家节省大量手动重拓扑时间。
- 质量控制 – 制造商可通过将预测的 SE(3) 布局与设计规格对比,检测装配产品中的错位或缺失部件。
由于模型仅需一次前向传播(在现代 GPU 上约 0.1 s/碎片),且不依赖迭代 ICP,十分适合实时流水线。
局限性与未来工作
- 对颜色质量的依赖 – 严重风化或单色表面仍会挑战颜色分支;作者建议加入纹理或材质描述符。
- 对超大规模组装的可扩展性 – 当前的集合到集合匹配随碎片数量呈二次增长;未来可探索层次分组或稀疏注意力。
- 物理仿真 – 虽然重叠惩罚有帮助,但框架未实现完整的接触力学;与物理引擎耦合可能得到更真实的组装。
- 对非刚性部件的泛化 – 方法假设碎片为刚体;将其扩展到可变形对象(如可粘合的破碎陶器)仍是开放研究方向。
作者
- Adeela Islam
- Stefano Fiorini
- Manuel Lecha
- Theodore Tsesmelis
- Stuart James
- Pietro Morerio
- Alessio Del Bue
论文信息
- arXiv ID: 2511.21422v1
- 分类: cs.CV
- 发布日期: 2025 年 11 月 26 日
- PDF: Download PDF