[Paper] Foundry:蒸馏 3D 基础模型用于边缘

发布: (2025年11月25日 GMT+8 15:53)
6 min read
原文: arXiv

Source: arXiv - 2511.20721v1

概述

本文提出 Foundry,这是首个在不失去“一个模型适配所有任务”能力的前提下,将大型自监督 3‑D 基础模型压缩为体积小、适合边缘部署的网络的系统。通过将教师模型丰富的 token 表征蒸馏到紧凑的 SuperTokens 集合,Foundry 使得在机器人、AR/VR 头显以及其他算力受限设备上实现高质量的 3‑D 感知成为可能。

主要贡献

  • 基础模型蒸馏 (FMD) – 一种新的蒸馏范式,保留 SSL 基础模型的 通用 性,而不是为单一下游任务定制专用模型。
  • 针对 3‑D 点云的 Foundry 实现 – 第一个在体积数据上可行的 FMD 系统,突破了传统上由重量级模型主导的领域。
  • SuperToken 表征 – 学习得到的高度压缩的 token 集,可重建教师的完整 token 矩阵,充当潜在空间的紧凑基底。
  • 广泛的可迁移性 – 单一蒸馏模型在分类、部件分割和少样本学习上均能实现接近教师的性能,且无需任何任务特定的微调。
  • 边缘友好的效率 – FLOPs 降低约 70 %Token 数量减少 80 %,使得在 GPU/CPU 资源受限的设备上实现实时推理成为可能。

方法论

  1. 教师预训练 – 在大规模未标记点云数据上训练大型 3‑D SSL 模型(如 Point‑MAE 或点云掩码自编码器),学习通用的几何嵌入。
  2. SuperToken 生成 – Foundry 不直接复制教师的完整 token 序列,而是学习一小组 可学习的 SuperTokens。它们类似字典,可线性组合以近似任意教师 token。
  3. 蒸馏目标 – 学生网络的训练目标为 (a) 从原始点云预测 SuperTokens;(b) 使用简单的线性解码器重建教师的 token‑级特征。损失由重建项(对 token 嵌入的 L2)和对比项(保持几何关系)组成。
  4. 任务无关微调 – 蒸馏完成后,学生模型被冻结,直接接入下游管线(如线性分类器或分割头),无需额外的任务特定训练,证明蒸馏表征仍具广泛适用性。

整个流水线可在单张 GPU 上运行,几天即可完成与典型 3‑D 基础模型规模相当的模型训练,具备研究实验室和工业团队的实用性。

结果与发现

指标教师(完整)Foundry(蒸馏)Δ
分类准确率 (ModelNet40)93.2 %91.8 %–1.4 %
部件分割 mIoU (ShapeNetPart)85.6 %84.1 %–1.5 %
少样本(5‑shot)分类88.0 %86.5 %–1.5 %
FLOPs (G)12.43.8–69 %
Token 数量1024256–75 %

关键要点

  • 蒸馏模型在所有评估任务上仅落后教师 1–2 %,验证了 SuperToken 基底能够捕获关键几何信息。
  • 计算量大幅下降:在 Jetson Nano 级别设备上推理速度提升约 3 倍,内存占用下降足以并行处理多个点云流。
  • 同一蒸馏检查点可跨任务使用,印证了 FMD “下游无关”压缩的主张。

实际意义

  • 机器人 – 自动无人机和仓储机器人现在可以在嵌入式 CPU/GPU 上运行高保真 3‑D 感知(障碍检测、物体抓取),延长电池寿命并降低硬件成本。
  • AR/VR – 手部追踪或空间映射等实时场景理解在头显级芯片上成为可能,无需云端卸载,提升沉浸体验。
  • 边缘 AI 平台 – 云‑到‑边缘的流水线可以只部署一个蒸馏模型,服务分类、分割、异常检测等多种服务,简化部署与版本管理。
  • 快速原型 – 开发者无需数据中心 GPU 即可实验基础模型质量,加速初创公司和科研实验室的产品迭代。

局限性与未来工作

  • 领域迁移 – 论文仅在标准基准上评估;在严重传感器噪声或新颖物体类别(如恶劣天气下的 LiDAR)下的表现尚未验证。
  • SuperToken 数量权衡 – 虽然 256 个 token 效果良好,但针对特定硬件预算寻找最优 token 预算仍需人工调参。
  • 向多模态 3‑D 扩展 – 当前工作聚焦纯点云;将 RGB 或触觉数据纳入 FMD 框架仍是开放方向。
  • 理论保证 – 作者指出缺乏对 SuperToken 基底信息保留量的形式化分析,未来可在压缩界限上开展研究。

作者

  • Guillaume Letellier
  • Siddharth Srivastava
  • Frédéric Jurie
  • Gaurav Sharma

论文信息

  • arXiv ID: 2511.20721v1
  • 分类: cs.CV, cs.AI, cs.LG, cs.NE
  • 发布日期: 2025 年 11 月 25 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »