[Paper] Foundry：蒸馏 3D 基础模型用于边缘

发布: 2个月前 (2025年11月25日 GMT+8 15:53)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.20721v1

概述

本文提出 Foundry，这是首个在不失去“一个模型适配所有任务”能力的前提下，将大型自监督 3‑D 基础模型压缩为体积小、适合边缘部署的网络的系统。通过将教师模型丰富的 token 表征蒸馏到紧凑的 SuperTokens 集合，Foundry 使得在机器人、AR/VR 头显以及其他算力受限设备上实现高质量的 3‑D 感知成为可能。

主要贡献

基础模型蒸馏 (FMD) – 一种新的蒸馏范式，保留 SSL 基础模型的通用性，而不是为单一下游任务定制专用模型。
针对 3‑D 点云的 Foundry 实现 – 第一个在体积数据上可行的 FMD 系统，突破了传统上由重量级模型主导的领域。
SuperToken 表征 – 学习得到的高度压缩的 token 集，可重建教师的完整 token 矩阵，充当潜在空间的紧凑基底。
广泛的可迁移性 – 单一蒸馏模型在分类、部件分割和少样本学习上均能实现接近教师的性能，且无需任何任务特定的微调。
边缘友好的效率 – FLOPs 降低约 70 %、Token 数量减少 80 %，使得在 GPU/CPU 资源受限的设备上实现实时推理成为可能。

方法论

教师预训练 – 在大规模未标记点云数据上训练大型 3‑D SSL 模型（如 Point‑MAE 或点云掩码自编码器），学习通用的几何嵌入。
SuperToken 生成 – Foundry 不直接复制教师的完整 token 序列，而是学习一小组 可学习的 SuperTokens。它们类似字典，可线性组合以近似任意教师 token。
蒸馏目标 – 学生网络的训练目标为 (a) 从原始点云预测 SuperTokens；(b) 使用简单的线性解码器重建教师的 token‑级特征。损失由重建项（对 token 嵌入的 L2）和对比项（保持几何关系）组成。
任务无关微调 – 蒸馏完成后，学生模型被冻结，直接接入下游管线（如线性分类器或分割头），无需额外的任务特定训练，证明蒸馏表征仍具广泛适用性。

整个流水线可在单张 GPU 上运行，几天即可完成与典型 3‑D 基础模型规模相当的模型训练，具备研究实验室和工业团队的实用性。

结果与发现

指标	教师（完整）	Foundry（蒸馏）	Δ
分类准确率 (ModelNet40)	93.2 %	91.8 %	–1.4 %
部件分割 mIoU (ShapeNetPart)	85.6 %	84.1 %	–1.5 %
少样本（5‑shot）分类	88.0 %	86.5 %	–1.5 %
FLOPs (G)	12.4	3.8	–69 %
Token 数量	1024	256	–75 %

关键要点

蒸馏模型在所有评估任务上仅落后教师 1–2 %，验证了 SuperToken 基底能够捕获关键几何信息。
计算量大幅下降：在 Jetson Nano 级别设备上推理速度提升约 3 倍，内存占用下降足以并行处理多个点云流。
同一蒸馏检查点可跨任务使用，印证了 FMD “下游无关”压缩的主张。

实际意义

机器人 – 自动无人机和仓储机器人现在可以在嵌入式 CPU/GPU 上运行高保真 3‑D 感知（障碍检测、物体抓取），延长电池寿命并降低硬件成本。
AR/VR – 手部追踪或空间映射等实时场景理解在头显级芯片上成为可能，无需云端卸载，提升沉浸体验。
边缘 AI 平台 – 云‑到‑边缘的流水线可以只部署一个蒸馏模型，服务分类、分割、异常检测等多种服务，简化部署与版本管理。
快速原型 – 开发者无需数据中心 GPU 即可实验基础模型质量，加速初创公司和科研实验室的产品迭代。

局限性与未来工作

领域迁移 – 论文仅在标准基准上评估；在严重传感器噪声或新颖物体类别（如恶劣天气下的 LiDAR）下的表现尚未验证。
SuperToken 数量权衡 – 虽然 256 个 token 效果良好，但针对特定硬件预算寻找最优 token 预算仍需人工调参。
向多模态 3‑D 扩展 – 当前工作聚焦纯点云；将 RGB 或触觉数据纳入 FMD 框架仍是开放方向。
理论保证 – 作者指出缺乏对 SuperToken 基底信息保留量的形式化分析，未来可在压缩界限上开展研究。

作者

Guillaume Letellier
Siddharth Srivastava
Frédéric Jurie
Gaurav Sharma

论文信息

arXiv ID: 2511.20721v1
分类: cs.CV, cs.AI, cs.LG, cs.NE
发布日期: 2025 年 11 月 25 日
PDF: Download PDF

[Paper] Foundry：蒸馏 3D 基础模型用于边缘

概述

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] EoS-FM：专家模型集合能作为通用特征提取器吗？

[论文] 批量去噪在无线边缘网络中的AIGC服务提供

AI 代理在区块链智能合约中发现 460 万美元的漏洞

Apple AI 负责人因 Siri 挫折辞职