[Paper] RD‑ViT:Recurrent‑Depth Vision Transformer 用于降低数据依赖的语义分割,扩展 Recurrent‑Depth Transformer 架构至密集预测

发布: (2026年5月6日 GMT+8 01:21)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.03999v1

(请提供您希望翻译的具体文本内容,我将按照要求保留源链接、格式和技术术语进行简体中文翻译。)

概述

本文介绍了 RD‑ViT,一种 Recurrent‑Depth Vision Transformer,重新思考了用于语义分割的经典 ViT 架构。通过在多个 “depth” 迭代中共享单个 transformer 块,RD‑ViT 大幅削减了所需的数据量和参数量,同时仍在 2‑D 和 3‑D 医学影像任务上实现了最先进的准确率。

关键贡献

  • Recurrent‑Depth design for dense prediction – 用一个共享块循环 T 次取代深层堆叠的独立 Transformer 层。
  • LTI‑stable state injection – 保证循环的收敛,防止表示的爆炸或消失。
  • Adaptive Computation Time (ACT) – 让模型对难分割区域(如器官边界)分配更多迭代次数,对易分割区域分配更少。
  • Depth‑wise LoRA adaptation – 在每次递归步骤上进行轻量低秩更新,实现快速微调且额外参数极少。
  • Optional Mixture‑of‑Experts (MoE) feed‑forward – 添加类别特定的专家,自动专精(如右心室与心肌),无需额外监督。
  • Comprehensive 2‑D/3‑D evaluation – 在 ACDC 心脏 MRI 基准上进行全面的 2D/3D 评估,包括真实的 Google Colab 实验和完整的开源发布。

方法论

  1. 核心架构 – 单个 transformer 块(self‑attention + feed‑forward)被重复执行。每次迭代后,其隐藏状态通过 线性时不变(LTI)稳定注入进行更新,确保递归过程收敛到固定点。
  2. 自适应计算时间 – 对于每个空间 token,一个小型 halting 网络预测是否需要再进行一次迭代。靠近器官边缘的 token 往往会运行更多循环,而同质的背景 token 则提前停止,从而节省计算。
  3. Depth‑wise LoRA – 不为每次递归学习完整的参数集合,而是在每个深度步骤上添加低秩矩阵,显著降低可训练权重的总数。
  4. Mixture‑of‑Experts(可选) – Feed‑forward 层可以被一组专家取代;轻量 router 根据 token 选择要应用的专家(或多个专家),使模型能够学习特定结构的处理方式。
  5. Training & Inference – 模型在心脏 MRI 的 2‑D 切片和 3‑D 体积上进行训练。推理时,递归步数可以增加(depth extrapolation),而不会降低性能,为开发者提供在延迟与精度之间权衡的灵活性。

结果与发现

设置使用的数据参数Dice (RD‑ViT)Dice (Standard ViT)相对增益
2‑D 切片级别训练集的 10 %0.7740.762+1.6 %
2‑D 切片级别训练集的 100 %0.8820.872+1.1 %
3‑D 体积(含 MoE)完整数据集3.0 M0.8120.817–0.6 % (99.4 % of ViT)
3‑D 体积(不含 MoE)完整数据集0.7950.817–2.7 %

附加观察

  • 专家专门化:MoE 专家自行组织,专注于 RV、MYO 和 LV,且未使用任何基于标签的路由。
  • ACT 停止映射:更高的迭代次数聚集在心脏边界附近,证实模型学会在关键部位投入更多计算。
  • 思考时间:每个 token 的平均迭代次数从 2.6(早期训练)下降到 1.4(后期训练),显示网络学会了更高效。
  • 深度外推:在推理时运行的循环次数多于训练时的循环次数并未降低 Dice 值,提供了一个用于延迟‑精度权衡的简易调节。

Practical Implications

  • Reduced data hunger – 开发者可以在有限的医学数据集(或任何标注稀少的领域)上训练高性能的分割模型,而不会牺牲准确性。
  • Parameter efficiency – 参数少于 < 4 M,RD‑ViT 能轻松运行在边缘设备或 GPU 受限的环境中,适合设备端诊断或实时成像流水线。
  • Dynamic compute budgeting – ACT 允许对每个像素进行计算分配,可用于满足严格的延迟预算(例如介入放射学),只需限制最大迭代次数。
  • Plug‑and‑play MoE – 可选的 MoE 层在几乎没有额外开销的情况下提供专门化,当单一模型需要处理多种器官类别或模态时非常有用。
  • Open‑source notebooks – 作者提供了 Colab notebook,团队可以快速原型、与标准 ViT 进行基准对比,并将递归深度的思路迁移到其他密集预测任务(如卫星影像分割、自动驾驶感知)。

限制与未来工作

  • 领域聚焦 – 实验仅限于心脏 MRI;需要在自然图像分割基准(如 COCO‑Stuff、ADE20K)上进行更广泛的验证,以确认其通用性。
  • 训练稳定性 – 虽然 LTI‑stable 注入可减轻发散问题,但循环结构仍可能对学习率调度和初始化敏感,需要仔细调参。
  • ACT 开销 – 停止网络会带来少量计算成本;在超低延迟场景下可能需要进一步剪枝。
  • MoE 路由简易性 – 当前路由器轻量且无监督;未来工作可探索学习式或层次化路由,以提升专家利用率。
  • 3‑D 可扩展性 – 虽然模型能够处理 3‑D 体积,但随 token 数量增加内存消耗也会增长;混合块级或层次化方案可将适用范围扩展到更高分辨率的体积。

Bottom line: RD‑ViT 证明了在深度上共享 Transformer 层、结合自适应计算和轻量化适配技巧,能够突破“数据量大 = 模型大”的壁垒,实现语义分割的高效高质量——为生产级医疗及其他数据受限场景的高效视觉模型打开了大门。

作者

  • Renjie He

论文信息

  • arXiv ID: 2605.03999v1
  • 类别: cs.CV
  • 出版时间: 2026年5月5日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »