[Paper] MuViT：多分辨率 Vision Transformers 在显微镜中的跨尺度学习

发布: 3天前 (2026年2月28日 GMT+8 01:48)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.24222v1

请提供您希望翻译的具体文本内容，我将按照要求保留源链接并将文本翻译成简体中文。

概述

显微镜正在生成越来越大的图像——通常是千兆像素——捕捉从亚细胞细节到整体组织结构的多尺度生物结构。论文 “MuViT: Multi‑Resolution Vision Transformers for Learning Across Scales in Microscopy” 提出了一种基于 Transformer 的新模型，能够同时在这些不同分辨率上进行推理，提供比传统单尺度 Vision Transformers（ViTs）或卷积网络更准确的分析。

关键贡献

True multi‑resolution attention: 引入一种 transformer 编码器，能够摄取不同放大倍率的图块，并在共享的世界坐标系中进行融合。
Rotary positional embeddings for coordinates: 将 rotary 嵌入扩展用于编码绝对空间位置（以微米或像素为单位），使模型能够理解每个图块在原始切片中的位置。
Scale‑consistent pre‑training (Multi‑resolution MAE): 将 Masked Auto‑Encoder 预训练适配到多分辨率数据，生成在不同尺度下仍保持一致的表征。
Comprehensive evaluation: 在合成基准、肾脏组织病理学分类以及高分辨率小鼠脑成像上展示了持续的提升，超越了强大的 ViT 和 CNN 基线。
Open‑source implementation: 提供代码和预训练权重，便于在显微镜工作流中采用。

方法论

在多倍放大倍率下提取补丁 – 从千兆像素切片中，作者会在例如 5×、10×、20× 的倍率下采样重叠的补丁。每个补丁保留其 世界坐标（即在切片上的物理位置）。
共享嵌入空间 – 所有补丁都被线性投射到同一个 token 空间，不论分辨率如何。
旋转式世界坐标嵌入 – 与常用的二维正弦或学习型位置编码不同，模型使用旋转嵌入，根据补丁的绝对 (x, y) 坐标旋转 token 向量。这使得注意力能够感知真实世界的距离，而不仅仅是 token 索引。
统一的 Transformer 编码器 – 标准的 ViT 编码器处理混合分辨率的 token 集。由于位置编码反映了真实几何，self‑attention 层可以自然地将低分辨率的上下文 token 与高分辨率的细节 token 结合。
多分辨率 MAE 预训练 – 在自监督预训练期间，随机在所有尺度上掩蔽补丁，模型学习重建缺失的像素。这迫使编码器学习在粗略视图或细致视图下都一致的表征。

整体流程很简单：提取多尺度补丁 → 使用世界坐标旋转编码进行嵌入 → 输入 ViT 编码器 → 下游头（分类、分割等）。

Results & Findings

数据集	任务	基线 (ViT‑B/16)	MuViT（我们的）	相对提升
Synthetic multi‑scale benchmark	多尺度分类	78.3 %	84.7 %	+6.4 %
Kidney histopathology (TCGA)	肿瘤 vs. 正常	91.2 %	94.5 %	+3.3 %
Mouse brain (Allen Institute)	细胞类型分割	0.71 IoU	0.78 IoU	+7 %

关键观察

注意力学习跨尺度关系 – 可视化注意力图显示低分辨率的 token 提供全局上下文，而高分辨率的 token 则关注细微结构。
预训练很重要 – 多分辨率 MAE 相比从头训练提升约 2 %，验证了尺度一致的表征是有益的。
效率 – 由于模型处理的 token 数量适中（例如总计 256 个 patch），而不是完整的千兆像素图像，推理在单个 GPU 上仍然可行。

实际意义

加速病理工作流 – 实验室可以将整张切片图像直接输入单一模型，而无需将低倍和高倍放大分析结果拼接，从而降低工程开销。
更佳的 ROI 选择 – 通过同时考虑上下文和细节，MuViT 能更可靠地标记感兴趣区域，以供后续人工审查或针对性高分辨率扫描。
可迁移的预训练模型 – 发布的多分辨率 MAE 权重可作为多种显微镜任务的基础（细胞计数、表型分类、空间转录组对齐）。
可扩展到其他领域 – 任何拥有多尺度图像的领域——卫星遥感、自动驾驶（广角+变焦镜头）或工业检测——都可以在几乎不做改动的情况下采用世界坐标旋转嵌入技巧。

限制与未来工作

补丁选择策略 – 当前方法均匀抽样补丁；自适应抽样（例如聚焦于组织边界）可能进一步降低 token 数量。
随分辨率增多的内存扩展 – 添加更多放大倍率会线性增加 token 数量；对于极端规模扩展，可能需要层次化或稀疏注意力机制。
领域迁移 – 虽然作者在多种显微镜模式上进行了测试，但在完全不同的染色方案或成像模式（例如电子显微镜）上的性能仍需验证。
可解释性 – 虽然注意力可视化提供了信息，但针对多分辨率 Transformer 的严格可解释性工具仍是一个未解决的研究领域。

作者建议探索学习坐标系（而非固定的世界坐标），并将下游分割头直接集成到 Transformer 中，实现端到端训练。

作者

Albert Dominguez Mantes
Gioele La Manno
Martin Weigert

论文信息

arXiv ID: 2602.24222v1
分类: cs.CV, cs.LG
发布日期: 2026年2月27日
PDF: 下载 PDF

[Paper] MuViT：多分辨率 Vision Transformers 在显微镜中的跨尺度学习

概述

关键贡献

方法论

Results & Findings

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Mode Seeking 与 Mean Seeking 相结合，实现快速长视频生成

[Paper] SenCache：通过敏感度感知缓存加速扩散模型推理

[Paper] 多模态大语言模型的不确定性量化与不一致性校正语义体积

[Paper] UFO-4D：无姿态前馈式四维重建（基于两张图像）