[Paper] 将 Vision Transformers 适配到超高分辨率语义分割的 Relay Tokens
发布: (2026年1月10日 GMT+8 00:41)
6 min read
原文: arXiv
Source: arXiv - 2601.05927v1
概览
本文介绍了 Relay Tokens,这是一种轻量级的插件,使 Vision Transformers (ViTs) 能够处理超高分辨率 (UHR) 图像的语义分割,而不会牺牲全局上下文或细粒度细节。通过并行在两个尺度上处理同一图像,并通过少量可学习的 token 进行信息交换,作者在多个苛刻的 UHR 基准上实现了最先进的结果,同时仅增加了不到 2 % 的额外参数。
关键贡献
- Dual‑scale transformer architecture – 同时运行高分辨率局部分支和低分辨率全局分支。
- Relay tokens – 一小组可学习的向量,在两个分支之间传递特征信息,实现显式的多尺度推理。
- Backbone‑agnostic design – 可与 vanilla ViT、Swin‑Transformer 以及其他标准 transformer 编码器配合使用,无需对架构进行大幅改动。
- Parameter‑efficient – 与基线 transformer 相比,模型规模增加不到 2 %。
- Strong empirical gains – 在超高分辨率数据集(Archaeoscape、URUR、Gleason)上实现最高 15 % 相对 mIoU 提升,并在经典的 Cityscapes 基准上也有持续提升。
- Open‑source release – 代码、预训练权重和演示均已公开,可促进快速采用。
方法论
-
两个并行处理流
- 本地流:将输入图像拆分为许多小的高分辨率裁剪(例如,256 × 256)。每个裁剪送入保持像素级细节的 transformer。
- 全局流:将同一图像下采样到更低分辨率(例如,原始尺寸的 1/8),作为单个大裁剪进行处理,使模型获得场景的整体视图。
-
中继 token 作为桥梁
- 在 两个 流的 token 序列后追加固定数量(通常为 4–8)的可学习 token 向量。
- 在每个 transformer 块之后,本地流和全局流交换这些 token 的当前值。这让本地分支将细粒度线索注入全局表示,反之亦然,实现在 transformer 自注意力机制中的多尺度特征融合。
-
聚合与预测
- 将全局分支的输出上采样并与本地处理的补丁合并。
- 轻量解码器(例如 1×1 卷积)生成最终的每像素类别 logits。
由于中继 token 仅是少量额外向量,计算开销极小,且该方法可以通过一行代码直接嵌入现有基于 ViT 的分割流水线。
结果与发现
| 数据集 | 基线 (ViT/Swin) mIoU | Relay‑Token mIoU | 相对提升 |
|---|---|---|---|
| Archaeoscape (UHR) | 61.2 % | 70.1 % | +14.5 % |
| URUR (UHR) | 68.4 % | 73.9 % | +8.0 % |
| Gleason (UHR pathology) | 72.0 % | 78.5 % | +9.0 % |
| Cityscapes (standard) | 78.3 % | 81.2 % | +3.7 % |
- 改进在非常不同的领域(考古航空影像、遥感、组织病理学和街景)中保持一致。
- 消融实验表明 两个 分支都是必要的:去掉全局流会损害大目标的一致性,而去掉局部流会降低边缘精度。
- 改变 relay token 的数量显示在约 6 个 token 后收益递减,证实了极小的通信通道已足够。
实际意义
- Geospatial & remote‑sensing pipelines 现在可以在卫星或无人机影像(通常 > 10 k × 10 k 像素)上进行端到端分割,而无需使用昂贵的滑动窗口后处理。
- Medical imaging(例如全切片病理)受益于在保留细胞细节的同时仍能理解组织层级结构,可能提升计算机辅助诊断的效果。
- AR/VR content creation 与 cultural‑heritage digitization 可以利用该方法自动标注大型考古遗址,加快制图和保护工作。
- 对于开发者而言,该方法几乎不增加内存开销,且可集成到现有的 PyTorch 或 TensorFlow transformer 库中,成为任何高分辨率分割任务的即插即用升级。
限制与未来工作
- 当前设计假设全局分支使用 固定的下采样因子;对于高度各向异性的图像,可能需要自适应的缩放策略。
- Relay Token 在所有空间位置上共享,这可能限制对极度异构场景的表达能力;未来工作可以探索 空间可变的 Relay Token 或层次化的 Token 组。
- 对非常大图像的实时推理仍需对局部分支进行切块;优化切块调度或利用稀疏注意力可以进一步降低延迟。
总体而言,Relay Token 提供了一种务实且高影响力的方案,将 Vision Transformer 的全局推理能力引入超高分辨率领域,为构建下一代视觉 AI 系统的开发者打开了新大门。
作者
- Yohann Perron
- Vladyslav Sydorov
- Christophe Pottier
- Loic Landrieu
论文信息
- arXiv ID: 2601.05927v1
- 分类: cs.CV
- 出版日期: 2026年1月9日
- PDF: 下载 PDF