SAM 3 已上线:Meta 最新的 Vision AI 现在可以理解你的文字

发布: (2025年12月18日 GMT+8 15:43)
3 min read
原文: Dev.to

Source: Dev.to

SAM 系列

SAM 1 (2023)

  • 零样本模型,可通过点击或边界框对任意对象进行分割。

SAM 2 (2024)

  • 增加了视频支持,实现跨帧的对象追踪。

SAM 3 (2025)

  • 引入原生文本提示理解和 3D 重建能力。

SAM 3 的新特性

  • 文本提示分割 – 描述你想要分割的内容(例如 “红色汽车”、 “黄色校车”、 “羚羊”),模型会自动检测、掩码并追踪这些对象。
  • 统一的图像‑视频骨干网 – 共享的视觉编码器处理单帧图像的同时保持时间一致性,省去单独的检测和追踪流水线。
  • 3D 重建(“SAM 3D”) – 从 2D 图像或视频估计对象的三维形状,为 AR/VR、机器人和 XR 应用打开可能性。
  • 优化的推理 – 尽管功能增多,SAM 3 仍保持高效,在 Meta 的 SA‑Co 数据集上超越早期版本,并针对边缘设备部署进行设计。

技术深度解析:在 AMD Ryzen AI Max+ 395 上本地实现

硬件配置

  • CPU: 16 核 Zen 5(Strix Halo)
  • 内存: 128 GB LPDDR5x(8000 MT/s)
  • 峰值性能: 最高 126 TOPS

通过利用 Ryzen AI 的统一内存架构,SAM 3 可在本地运行,无需云端依赖,提供低延迟和数据隐私优势。虽然高端 GPU(如 NVIDIA H100)是大规模视觉模型的常规选择,但 Ryzen 平台为内存占用适中、实时需求的工作负载提供了成本效益更高的替代方案。

在 Ryzen AI Max+ 395 上运行 SAM 3 可实现极快的推理速度,支持在边缘摄像头上进行“按描述分割”检测。

完整的实现指南——包括代码、基准测试结果以及与物联网边缘摄像头的集成——将在后续文章中发布。

资源

  • GitHub:
  • Hugging Face:
  • Demo:

尝试官方演示,亲自感受 SAM 3 的精准度。欢迎在评论中留下你的反馈。

Back to Blog

相关文章

阅读更多 »

识别 AWS 云的设计原则

AWS Well-Architected Framework AWS Well‑Architected Framework 为构建安全、弹性、高效、成本效益的云架构提供指导,……