[Paper] RD‑ViT：Recurrent‑Depth Vision Transformer 用于降低数据依赖的语义分割，扩展 Recurrent‑Depth Transformer 架构至密集预测

发布: 5天前 (2026年5月6日 GMT+8 01:21)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.03999v1

（请提供您希望翻译的具体文本内容，我将按照要求保留源链接、格式和技术术语进行简体中文翻译。）

概述

本文介绍了 RD‑ViT，一种 Recurrent‑Depth Vision Transformer，重新思考了用于语义分割的经典 ViT 架构。通过在多个 “depth” 迭代中共享单个 transformer 块，RD‑ViT 大幅削减了所需的数据量和参数量，同时仍在 2‑D 和 3‑D 医学影像任务上实现了最先进的准确率。

关键贡献

Recurrent‑Depth design for dense prediction – 用一个共享块循环 T 次取代深层堆叠的独立 Transformer 层。
LTI‑stable state injection – 保证循环的收敛，防止表示的爆炸或消失。
Adaptive Computation Time (ACT) – 让模型对难分割区域（如器官边界）分配更多迭代次数，对易分割区域分配更少。
Depth‑wise LoRA adaptation – 在每次递归步骤上进行轻量低秩更新，实现快速微调且额外参数极少。
Optional Mixture‑of‑Experts (MoE) feed‑forward – 添加类别特定的专家，自动专精（如右心室与心肌），无需额外监督。
Comprehensive 2‑D/3‑D evaluation – 在 ACDC 心脏 MRI 基准上进行全面的 2D/3D 评估，包括真实的 Google Colab 实验和完整的开源发布。

方法论

核心架构 – 单个 transformer 块（self‑attention + feed‑forward）被重复执行。每次迭代后，其隐藏状态通过 线性时不变（LTI）稳定注入进行更新，确保递归过程收敛到固定点。
自适应计算时间 – 对于每个空间 token，一个小型 halting 网络预测是否需要再进行一次迭代。靠近器官边缘的 token 往往会运行更多循环，而同质的背景 token 则提前停止，从而节省计算。
Depth‑wise LoRA – 不为每次递归学习完整的参数集合，而是在每个深度步骤上添加低秩矩阵，显著降低可训练权重的总数。
Mixture‑of‑Experts（可选） – Feed‑forward 层可以被一组专家取代；轻量 router 根据 token 选择要应用的专家（或多个专家），使模型能够学习特定结构的处理方式。
Training & Inference – 模型在心脏 MRI 的 2‑D 切片和 3‑D 体积上进行训练。推理时，递归步数可以增加（depth extrapolation），而不会降低性能，为开发者提供在延迟与精度之间权衡的灵活性。

结果与发现

设置	使用的数据	参数	Dice (RD‑ViT)	Dice (Standard ViT)	相对增益
2‑D 切片级别	训练集的 10 %	–	0.774	0.762	+1.6 %
2‑D 切片级别	训练集的 100 %	–	0.882	0.872	+1.1 %
3‑D 体积（含 MoE）	完整数据集	3.0 M	0.812	0.817	–0.6 % (99.4 % of ViT)
3‑D 体积（不含 MoE）	完整数据集	–	0.795	0.817	–2.7 %

附加观察

专家专门化：MoE 专家自行组织，专注于 RV、MYO 和 LV，且未使用任何基于标签的路由。
ACT 停止映射：更高的迭代次数聚集在心脏边界附近，证实模型学会在关键部位投入更多计算。
思考时间：每个 token 的平均迭代次数从 2.6（早期训练）下降到 1.4（后期训练），显示网络学会了更高效。
深度外推：在推理时运行的循环次数多于训练时的循环次数并未降低 Dice 值，提供了一个用于延迟‑精度权衡的简易调节。

Practical Implications

Reduced data hunger – 开发者可以在有限的医学数据集（或任何标注稀少的领域）上训练高性能的分割模型，而不会牺牲准确性。
Parameter efficiency – 参数少于 < 4 M，RD‑ViT 能轻松运行在边缘设备或 GPU 受限的环境中，适合设备端诊断或实时成像流水线。
Dynamic compute budgeting – ACT 允许对每个像素进行计算分配，可用于满足严格的延迟预算（例如介入放射学），只需限制最大迭代次数。
Plug‑and‑play MoE – 可选的 MoE 层在几乎没有额外开销的情况下提供专门化，当单一模型需要处理多种器官类别或模态时非常有用。
Open‑source notebooks – 作者提供了 Colab notebook，团队可以快速原型、与标准 ViT 进行基准对比，并将递归深度的思路迁移到其他密集预测任务（如卫星影像分割、自动驾驶感知）。

限制与未来工作

领域聚焦 – 实验仅限于心脏 MRI；需要在自然图像分割基准（如 COCO‑Stuff、ADE20K）上进行更广泛的验证，以确认其通用性。
训练稳定性 – 虽然 LTI‑stable 注入可减轻发散问题，但循环结构仍可能对学习率调度和初始化敏感，需要仔细调参。
ACT 开销 – 停止网络会带来少量计算成本；在超低延迟场景下可能需要进一步剪枝。
MoE 路由简易性 – 当前路由器轻量且无监督；未来工作可探索学习式或层次化路由，以提升专家利用率。
3‑D 可扩展性 – 虽然模型能够处理 3‑D 体积，但随 token 数量增加内存消耗也会增长；混合块级或层次化方案可将适用范围扩展到更高分辨率的体积。

Bottom line: RD‑ViT 证明了在深度上共享 Transformer 层、结合自适应计算和轻量化适配技巧，能够突破“数据量大 = 模型大”的壁垒，实现语义分割的高效高质量——为生产级医疗及其他数据受限场景的高效视觉模型打开了大门。

作者

Renjie He

论文信息

arXiv ID: 2605.03999v1
类别: cs.CV
出版时间: 2026年5月5日
PDF: 下载 PDF

[Paper] RD‑ViT：Recurrent‑Depth Vision Transformer 用于降低数据依赖的语义分割，扩展 Recurrent‑Depth Transformer 架构至密集预测

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Proxy3D：通过语义聚类与对齐实现高效的 3D 表征用于视觉语言模型

[Paper] Flow-OPD：用于 Flow Matching 模型的 On-Policy 蒸馏

[Paper] 面向高度约束的人体动作生成的检索引导扩散噪声优化