[论文] Splat and Distill：通过前馈 3D 重建增强教师，实现 3D 感知蒸馏

发布: 3天前 (2026年2月6日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06032v1

Overview

论文 “Splat and Distill: Augmenting Teachers with Feed‑Forward 3D Reconstruction For 3D‑Aware Distillation” 解决了当前视觉基础模型（Vision Foundation Models，VFMs）中的一个显著盲点：它们在 2‑D 感知方面表现出色，却难以理解场景的底层 3‑D 几何结构。通过将快速的前馈 3‑D 重建步骤与师生蒸馏范式相结合，作者在教师的特征图中注入了显式的深度和表面法线信息，使学生模型能够在无需对每个场景进行昂贵优化的情况下，获得真实的 3‑D 感知能力。

关键贡献

前馈 3‑D 提升: 将 2‑D 教师特征即时转换为紧凑的基于高斯的 3‑D 表示，消除先前工作中使用的缓慢迭代优化。
基于 Splat 的新视角合成: 将提升后的 3‑D 特征投影到任意视点，生成多个 2‑D 特征图，作为几何约束的监督给学生模型。
动态教师‑学生一致性: 随着学生学习，教师的特征会得到改进，形成良性循环，减轻静态蒸馏流水线中常见的“特征平均”伪影。
广泛的下游评估: 在单目深度、表面法线估计、多视图对应和语义分割等任务上展示了显著提升，表明 3‑D 感知同样提升了语义丰富性。
开源实现与项目页面: 提供代码和预训练模型，方便社区立即进行实验。

方法论

教师特征提取 – 预训练的 2‑D VFM（例如 CLIP、DINO）处理输入图像并输出密集特征图。
前馈 3‑D 提升 – 将每个像素的特征向量提升为 3‑D 高斯模糊体，位置由粗略深度估计决定（该深度估计来源于教师自身特征或轻量深度预测器）。这些高斯体的集合形成显式、可微分的类点云 3‑D 表示。
投影到新视角 – 将 3‑D 高斯体投影（“splatted”）到一组合成相机姿态（例如轻微旋转或平移）。这会产生若干新的 2‑D 特征图，编码场景在这些视点下的外观，保持几何一致性。
蒸馏损失 – 学生模型（通常是更小或特定任务的网络）被训练以再现这些投影特征图。损失结合标准特征匹配项和几何感知正则项，惩罚跨视角的不一致。
迭代细化 – 随着学生模型的提升，其预测可反馈用于细化提升时使用的深度估计，进一步紧密教师‑学生循环。

整个流程是前馈的：无需对每个场景进行梯度下降或昂贵的体积渲染，因而适合大规模训练。

结果与发现

下游任务	基线（无3‑D）	先前的3‑D‑感知蒸馏	Splat‑and‑Distill
单目深度 (RMSE ↓)	0.68	0.61	0.53
表面法线 (Mean° ↓)	23.1	19.4	16.2
多视图对应 (PCK ↑)	71.3%	78.5%	84.9%
语义分割 (mIoU ↑)	62.4%	66.1%	70.8%

3‑D 感知： 深度和法线误差显著下降，证明学生模型学习到了真实的几何信息。
语义提升： 即使是纯 2‑D 任务（分割），也提升约 8 % 的 mIoU，表明更丰富的几何信息还能澄清物体边界和上下文。
速度： 前向提升在单个 RTX 3090 上约 30 fps，较需要数分钟才能完成场景的基于优化的方法提升超过 10 倍。

实际意义

增强的 AR/VR 流程： 开发者现在可以微调已经具备深度和表面方向感知的轻量感知模型，从而减少对独立深度传感器的依赖。
稳健的机器人感知： 配备蒸馏模型的机器人能够仅凭单摄像头推断 3‑D 结构，提升导航和操作能力，无需昂贵的 LiDAR。
改进的内容创作工具： 图像‑到‑3‑D 生成器、背景移除以及场景编辑软件可以利用几何感知特征，生成更精确的掩码和深度图。
高效的模型压缩： 该框架能够将大型、昂贵的 VFM 蒸馏为更小、可部署的模型，同时保留语义和几何能力——非常适合边缘设备。
即插即用的集成： 由于该方法可与任何现成的教师模型（CLIP、DINO、MAE 等）配合使用，团队可以在无需从头重新训练庞大教师模型的情况下，改造现有流水线。

Limitations & Future Work

Coarse depth initialization: 提升步骤依赖于近似的深度估计；该种子中的错误可能会传播到 Gaussian 表示。
View synthesis range: 该方法假设视点变化适度；极端的新视角可能因 Gaussian 云覆盖不足而表现不佳。
Domain shift: 虽然作者在多个基准上进行了测试，但在高度分布外的场景（例如医学成像、卫星数据）上的性能仍未得到验证。
Future directions: 作者建议探索学习的深度先验以实现更精确的提升，结合神经辐射场以获得更丰富的视图合成，并将框架扩展到视频流以实现时间一致性。

如果你想进行实验，作者已在项目页面上发布了代码和预训练检查点。将 “Splat and Distill” 模块接入你现有的 VFM 流程，即可让模型获得 3‑D 视角——且无需通常的计算开销。

作者

David Shavin
Sagie Benaim

论文信息

arXiv ID: 2602.06032v1
类别: cs.CV
发布于: 2026年2月5日
PDF: 下载 PDF

[论文] Splat and Distill：通过前馈 3D 重建增强教师，实现 3D 感知蒸馏

Overview

关键贡献

方法论

结果与发现

实际意义

Limitations & Future Work

作者

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[Paper] 从透视描述预测相机姿态用于空间推理

[Paper] SwimBird: 在混合自回归 MLLMs 中引发可切换的推理模式