[Paper] 将 Vision Transformers 适配到超高分辨率语义分割的 Relay Tokens

发布: (2026年1月10日 GMT+8 00:41)
6 min read
原文: arXiv

Source: arXiv - 2601.05927v1

概览

本文介绍了 Relay Tokens,这是一种轻量级的插件,使 Vision Transformers (ViTs) 能够处理超高分辨率 (UHR) 图像的语义分割,而不会牺牲全局上下文或细粒度细节。通过并行在两个尺度上处理同一图像,并通过少量可学习的 token 进行信息交换,作者在多个苛刻的 UHR 基准上实现了最先进的结果,同时仅增加了不到 2 % 的额外参数。

关键贡献

  • Dual‑scale transformer architecture – 同时运行高分辨率局部分支和低分辨率全局分支。
  • Relay tokens – 一小组可学习的向量,在两个分支之间传递特征信息,实现显式的多尺度推理。
  • Backbone‑agnostic design – 可与 vanilla ViT、Swin‑Transformer 以及其他标准 transformer 编码器配合使用,无需对架构进行大幅改动。
  • Parameter‑efficient – 与基线 transformer 相比,模型规模增加不到 2 %。
  • Strong empirical gains – 在超高分辨率数据集(Archaeoscape、URUR、Gleason)上实现最高 15 % 相对 mIoU 提升,并在经典的 Cityscapes 基准上也有持续提升。
  • Open‑source release – 代码、预训练权重和演示均已公开,可促进快速采用。

方法论

  1. 两个并行处理流

    • 本地流:将输入图像拆分为许多小的高分辨率裁剪(例如,256 × 256)。每个裁剪送入保持像素级细节的 transformer。
    • 全局流:将同一图像下采样到更低分辨率(例如,原始尺寸的 1/8),作为单个大裁剪进行处理,使模型获得场景的整体视图。
  2. 中继 token 作为桥梁

    • 两个 流的 token 序列后追加固定数量(通常为 4–8)的可学习 token 向量。
    • 在每个 transformer 块之后,本地流和全局流交换这些 token 的当前值。这让本地分支将细粒度线索注入全局表示,反之亦然,实现在 transformer 自注意力机制中的多尺度特征融合。
  3. 聚合与预测

    • 将全局分支的输出上采样并与本地处理的补丁合并。
    • 轻量解码器(例如 1×1 卷积)生成最终的每像素类别 logits。

由于中继 token 仅是少量额外向量,计算开销极小,且该方法可以通过一行代码直接嵌入现有基于 ViT 的分割流水线。

结果与发现

数据集基线 (ViT/Swin) mIoURelay‑Token mIoU相对提升
Archaeoscape (UHR)61.2 %70.1 %+14.5 %
URUR (UHR)68.4 %73.9 %+8.0 %
Gleason (UHR pathology)72.0 %78.5 %+9.0 %
Cityscapes (standard)78.3 %81.2 %+3.7 %
  • 改进在非常不同的领域(考古航空影像、遥感、组织病理学和街景)中保持一致。
  • 消融实验表明 两个 分支都是必要的:去掉全局流会损害大目标的一致性,而去掉局部流会降低边缘精度。
  • 改变 relay token 的数量显示在约 6 个 token 后收益递减,证实了极小的通信通道已足够。

实际意义

  • Geospatial & remote‑sensing pipelines 现在可以在卫星或无人机影像(通常 > 10 k × 10 k 像素)上进行端到端分割,而无需使用昂贵的滑动窗口后处理。
  • Medical imaging(例如全切片病理)受益于在保留细胞细节的同时仍能理解组织层级结构,可能提升计算机辅助诊断的效果。
  • AR/VR content creationcultural‑heritage digitization 可以利用该方法自动标注大型考古遗址,加快制图和保护工作。
  • 对于开发者而言,该方法几乎不增加内存开销,且可集成到现有的 PyTorch 或 TensorFlow transformer 库中,成为任何高分辨率分割任务的即插即用升级。

限制与未来工作

  • 当前设计假设全局分支使用 固定的下采样因子;对于高度各向异性的图像,可能需要自适应的缩放策略。
  • Relay Token 在所有空间位置上共享,这可能限制对极度异构场景的表达能力;未来工作可以探索 空间可变的 Relay Token 或层次化的 Token 组。
  • 对非常大图像的实时推理仍需对局部分支进行切块;优化切块调度或利用稀疏注意力可以进一步降低延迟。

总体而言,Relay Token 提供了一种务实且高影响力的方案,将 Vision Transformer 的全局推理能力引入超高分辨率领域,为构建下一代视觉 AI 系统的开发者打开了新大门。

作者

  • Yohann Perron
  • Vladyslav Sydorov
  • Christophe Pottier
  • Loic Landrieu

论文信息

  • arXiv ID: 2601.05927v1
  • 分类: cs.CV
  • 出版日期: 2026年1月9日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »