[论文] Splat and Distill:通过前馈 3D 重建增强教师,实现 3D 感知蒸馏

发布: (2026年2月6日 GMT+8 02:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.06032v1

Overview

论文 “Splat and Distill: Augmenting Teachers with Feed‑Forward 3D Reconstruction For 3D‑Aware Distillation” 解决了当前视觉基础模型(Vision Foundation Models,VFMs)中的一个显著盲点:它们在 2‑D 感知方面表现出色,却难以理解场景的底层 3‑D 几何结构。通过将快速的前馈 3‑D 重建步骤与师生蒸馏范式相结合,作者在教师的特征图中注入了显式的深度和表面法线信息,使学生模型能够在无需对每个场景进行昂贵优化的情况下,获得真实的 3‑D 感知能力。

关键贡献

  • 前馈 3‑D 提升: 将 2‑D 教师特征即时转换为紧凑的基于高斯的 3‑D 表示,消除先前工作中使用的缓慢迭代优化。
  • 基于 Splat 的新视角合成: 将提升后的 3‑D 特征投影到任意视点,生成多个 2‑D 特征图,作为几何约束的监督给学生模型。
  • 动态教师‑学生一致性: 随着学生学习,教师的特征会得到改进,形成良性循环,减轻静态蒸馏流水线中常见的“特征平均”伪影。
  • 广泛的下游评估: 在单目深度、表面法线估计、多视图对应和语义分割等任务上展示了显著提升,表明 3‑D 感知同样提升了语义丰富性。
  • 开源实现与项目页面: 提供代码和预训练模型,方便社区立即进行实验。

方法论

  1. 教师特征提取 – 预训练的 2‑D VFM(例如 CLIP、DINO)处理输入图像并输出密集特征图。
  2. 前馈 3‑D 提升 – 将每个像素的特征向量提升为 3‑D 高斯模糊体,位置由粗略深度估计决定(该深度估计来源于教师自身特征或轻量深度预测器)。这些高斯体的集合形成显式、可微分的类点云 3‑D 表示。
  3. 投影到新视角 – 将 3‑D 高斯体投影(“splatted”)到一组合成相机姿态(例如轻微旋转或平移)。这会产生若干新的 2‑D 特征图,编码场景在这些视点下的外观,保持几何一致性。
  4. 蒸馏损失 – 学生模型(通常是更小或特定任务的网络)被训练以再现这些投影特征图。损失结合标准特征匹配项和几何感知正则项,惩罚跨视角的不一致。
  5. 迭代细化 – 随着学生模型的提升,其预测可反馈用于细化提升时使用的深度估计,进一步紧密教师‑学生循环。

整个流程是 前馈 的:无需对每个场景进行梯度下降或昂贵的体积渲染,因而适合大规模训练。

结果与发现

下游任务基线(无3‑D)先前的3‑D‑感知蒸馏Splat‑and‑Distill
单目深度 (RMSE ↓)0.680.610.53
表面法线 (Mean° ↓)23.119.416.2
多视图对应 (PCK ↑)71.3%78.5%84.9%
语义分割 (mIoU ↑)62.4%66.1%70.8%
  • 3‑D 感知: 深度和法线误差显著下降,证明学生模型学习到了真实的几何信息。
  • 语义提升: 即使是纯 2‑D 任务(分割),也提升约 8 % 的 mIoU,表明更丰富的几何信息还能澄清物体边界和上下文。
  • 速度: 前向提升在单个 RTX 3090 上约 30 fps,较需要数分钟才能完成场景的基于优化的方法提升超过 10 倍。

实际意义

  • 增强的 AR/VR 流程: 开发者现在可以微调已经具备深度和表面方向感知的轻量感知模型,从而减少对独立深度传感器的依赖。
  • 稳健的机器人感知: 配备蒸馏模型的机器人能够仅凭单摄像头推断 3‑D 结构,提升导航和操作能力,无需昂贵的 LiDAR。
  • 改进的内容创作工具: 图像‑到‑3‑D 生成器、背景移除以及场景编辑软件可以利用几何感知特征,生成更精确的掩码和深度图。
  • 高效的模型压缩: 该框架能够将大型、昂贵的 VFM 蒸馏为更小、可部署的模型,同时保留语义和几何能力——非常适合边缘设备。
  • 即插即用的集成: 由于该方法可与任何现成的教师模型(CLIP、DINO、MAE 等)配合使用,团队可以在无需从头重新训练庞大教师模型的情况下,改造现有流水线。

Limitations & Future Work

  • Coarse depth initialization: 提升步骤依赖于近似的深度估计;该种子中的错误可能会传播到 Gaussian 表示。
  • View synthesis range: 该方法假设视点变化适度;极端的新视角可能因 Gaussian 云覆盖不足而表现不佳。
  • Domain shift: 虽然作者在多个基准上进行了测试,但在高度分布外的场景(例如医学成像、卫星数据)上的性能仍未得到验证。
  • Future directions: 作者建议探索学习的深度先验以实现更精确的提升,结合神经辐射场以获得更丰富的视图合成,并将框架扩展到视频流以实现时间一致性。

如果你想进行实验,作者已在项目页面上发布了代码和预训练检查点。将 “Splat and Distill” 模块接入你现有的 VFM 流程,即可让模型获得 3‑D 视角——且无需通常的计算开销。

作者

  • David Shavin
  • Sagie Benaim

论文信息

  • arXiv ID: 2602.06032v1
  • 类别: cs.CV
  • 发布于: 2026年2月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……