[Paper] MuViT:多分辨率 Vision Transformers 在显微镜中的跨尺度学习

发布: (2026年2月28日 GMT+8 01:48)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.24222v1

请提供您希望翻译的具体文本内容,我将按照要求保留源链接并将文本翻译成简体中文。

概述

显微镜正在生成越来越大的图像——通常是千兆像素——捕捉从亚细胞细节到整体组织结构的多尺度生物结构。论文 “MuViT: Multi‑Resolution Vision Transformers for Learning Across Scales in Microscopy” 提出了一种基于 Transformer 的新模型,能够同时在这些不同分辨率上进行推理,提供比传统单尺度 Vision Transformers(ViTs)或卷积网络更准确的分析。

关键贡献

  • True multi‑resolution attention: 引入一种 transformer 编码器,能够摄取不同放大倍率的图块,并在共享的世界坐标系中进行融合。
  • Rotary positional embeddings for coordinates: 将 rotary 嵌入扩展用于编码绝对空间位置(以微米或像素为单位),使模型能够理解每个图块在原始切片中的位置。
  • Scale‑consistent pre‑training (Multi‑resolution MAE): 将 Masked Auto‑Encoder 预训练适配到多分辨率数据,生成在不同尺度下仍保持一致的表征。
  • Comprehensive evaluation: 在合成基准、肾脏组织病理学分类以及高分辨率小鼠脑成像上展示了持续的提升,超越了强大的 ViT 和 CNN 基线。
  • Open‑source implementation: 提供代码和预训练权重,便于在显微镜工作流中采用。

方法论

  1. 在多倍放大倍率下提取补丁 – 从千兆像素切片中,作者会在例如 5×、10×、20× 的倍率下采样重叠的补丁。每个补丁保留其 世界坐标(即在切片上的物理位置)。
  2. 共享嵌入空间 – 所有补丁都被线性投射到同一个 token 空间,不论分辨率如何。
  3. 旋转式世界坐标嵌入 – 与常用的二维正弦或学习型位置编码不同,模型使用旋转嵌入,根据补丁的绝对 (x, y) 坐标旋转 token 向量。这使得注意力能够感知真实世界的距离,而不仅仅是 token 索引。
  4. 统一的 Transformer 编码器 – 标准的 ViT 编码器处理混合分辨率的 token 集。由于位置编码反映了真实几何,self‑attention 层可以自然地将低分辨率的上下文 token 与高分辨率的细节 token 结合。
  5. 多分辨率 MAE 预训练 – 在自监督预训练期间,随机在所有尺度上掩蔽补丁,模型学习重建缺失的像素。这迫使编码器学习在粗略视图或细致视图下都一致的表征。

整体流程很简单:提取多尺度补丁 → 使用世界坐标旋转编码进行嵌入 → 输入 ViT 编码器 → 下游头(分类、分割等)。

Results & Findings

数据集任务基线 (ViT‑B/16)MuViT(我们的)相对提升
Synthetic multi‑scale benchmark多尺度分类78.3 %84.7 %+6.4 %
Kidney histopathology (TCGA)肿瘤 vs. 正常91.2 %94.5 %+3.3 %
Mouse brain (Allen Institute)细胞类型分割0.71 IoU0.78 IoU+7 %

关键观察

  • 注意力学习跨尺度关系 – 可视化注意力图显示低分辨率的 token 提供全局上下文,而高分辨率的 token 则关注细微结构。
  • 预训练很重要 – 多分辨率 MAE 相比从头训练提升约 2 %,验证了尺度一致的表征是有益的。
  • 效率 – 由于模型处理的 token 数量适中(例如总计 256 个 patch),而不是完整的千兆像素图像,推理在单个 GPU 上仍然可行。

实际意义

  • 加速病理工作流 – 实验室可以将整张切片图像直接输入单一模型,而无需将低倍和高倍放大分析结果拼接,从而降低工程开销。
  • 更佳的 ROI 选择 – 通过同时考虑上下文和细节,MuViT 能更可靠地标记感兴趣区域,以供后续人工审查或针对性高分辨率扫描。
  • 可迁移的预训练模型 – 发布的多分辨率 MAE 权重可作为多种显微镜任务的基础(细胞计数、表型分类、空间转录组对齐)。
  • 可扩展到其他领域 – 任何拥有多尺度图像的领域——卫星遥感、自动驾驶(广角+变焦镜头)或工业检测——都可以在几乎不做改动的情况下采用世界坐标旋转嵌入技巧。

限制与未来工作

  • 补丁选择策略 – 当前方法均匀抽样补丁;自适应抽样(例如聚焦于组织边界)可能进一步降低 token 数量。
  • 随分辨率增多的内存扩展 – 添加更多放大倍率会线性增加 token 数量;对于极端规模扩展,可能需要层次化或稀疏注意力机制。
  • 领域迁移 – 虽然作者在多种显微镜模式上进行了测试,但在完全不同的染色方案或成像模式(例如电子显微镜)上的性能仍需验证。
  • 可解释性 – 虽然注意力可视化提供了信息,但针对多分辨率 Transformer 的严格可解释性工具仍是一个未解决的研究领域。

作者建议探索学习坐标系(而非固定的世界坐标),并将下游分割头直接集成到 Transformer 中,实现端到端训练。

作者

  • Albert Dominguez Mantes
  • Gioele La Manno
  • Martin Weigert

论文信息

  • arXiv ID: 2602.24222v1
  • 分类: cs.CV, cs.LG
  • 发布日期: 2026年2月27日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »