[Paper] TSN-Affinity：相似度驱动的参数复用用于持续离线强化学习

发布: 19小时前 (2026年4月29日 GMT+8 01:41)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.25898v1

概述

Continual Offline Reinforcement Learning (CORL) 旨在解决在 不进行任何实时交互 的情况下，对单一智能体进行一系列任务训练的难题——可以把它想象成在不破坏机器人已有能力的前提下，利用已记录的数据批次来更新机器人的技能集合。论文 TSN‑Affinity 提出了一种全新的架构方法，能够规避基于重放的方式所带来的巨量内存需求和分布漂移问题，采用极小的、任务专属子网络以及基于相似度的路由机制，仅在有意义时才共享知识。

关键贡献

TinySubNetwork (TSN) 架构用于 CORL – 每个新任务获得一个轻量级的“子网络”，复用基础模型的一部分参数。
基于亲和力的路由 – 一种新颖的 RL 感知相似度度量（动作兼容性 + 潜在嵌入相似性）决定哪个子网络处理给定状态，实现受控的参数共享。
与 Decision Transformers 的集成 – 利用 Transformer 在离线 RL 中的序列建模优势，同时保持 TSN 开销最小。
全面的实证评估 – 在 Atari（离散）和 Franka Emika Panda 操作（连续）上的实验表明，相比重放基线，具有更好的保持性和多任务性能。
开源实现 – 代码已发布，便于可重复性和社区扩展。

方法论

Base Model: 标准的 Decision Transformer (DT) 将轨迹处理为令牌序列（状态、动作、返回值）。
TinySubNetworks: 对每个新任务，学习一个二进制掩码，仅激活 DT 权重的一小部分，形成任务特定的子网络。其余参数在所有任务之间共享。
Affinity Scoring:
- Action Compatibility（动作兼容性）：衡量两个任务的动作分布有多相似（例如，两者都需要“向左移动”）。
- Latent Similarity（潜在相似性）：计算不同任务状态隐藏表示之间的余弦相似度。
  综合得分决定新任务是复用已有子网络还是生成全新子网络。
Routing at Inference（推理时路由）：当智能体收到状态时，它会对所有已有子网络计算亲和分数，并选择兼容性最高的子网络，从而将决策“路由”到最相关的参数集合。
Training Loop（训练循环）：离线数据集按顺序处理。对于每个任务，仅更新其指定的子网络，而共享权重则接受所有任务的梯度，促进知识迁移且不覆盖任务特有的细微差别。

结果与发现

基准	Replay‑CL（基线）	TSN‑Affinity（我们的）	保持率（5 个任务后的Δ）
Atari（10 款游戏）	78 % 平均得分	84 % 平均得分	+12 %
Franka Panda（抓取‑放置）	0.62 成功率	0.71 成功率	+15 %

保持率：在学习了五个任务后，TSN‑Affinity 在早期任务上的性能下降 <5 %，而重放方法下降 >15 %。
参数效率：每个子网络使用约 8 % 的完整模型参数；总内存随任务线性增长，但仍保持适度（约为基准 DT 的 1.4 倍，十个任务后）。
路由增益：加入基于亲和力的路由器，使多任务得分比朴素的“首匹配”子网络选择提升约 4 %。
训练速度：由于每个任务仅更新稀疏掩码，单任务训练时间比完整模型微调降低约 30 %。

实际影响

机器人与边缘设备：公司可以通过已记录的传感器日志持续升级机器人的功能，而无需将其从生产环境中取出，同时保持固件占用空间低。
安全关键系统：在自动驾驶等领域，在线探索风险高，TSN‑Affinity 能够从仿真或车队数据中进行增量策略更新，避免灾难性遗忘。
资源受限的云服务：提供强化学习即服务的 SaaS 平台可以在单一模型中托管多个客户特定的策略，通过子网络路由降低 GPU 内存占用和推理延迟。
简化部署流水线：无需维护大型回放缓冲区或进行昂贵的数据洗牌；新任务只需训练一个小掩码并更新共享骨干网络即可。

限制与未来工作

亲和度计算的可扩展性：随着任务数量的增加，对所有已有子网络进行相似度评估可能成为瓶颈；近似最近邻方法是一种可能的解决方案。
任务相似性假设：路由依赖于有意义的潜在相似性；高度不同的任务（例如基于视觉的导航与纯控制）可能仍需使用独立的大子网络，从而限制参数共享。
离线数据集质量：与所有离线强化学习方法一样，性能取决于记录轨迹的覆盖度和质量；噪声或偏差的日志会降低亲和度分数。
未来方向：将 TSN‑Affinity 扩展到 元学习 场景，使模型能够通过少量示例快速推断新掩码，并探索 层次化路由（将任务分组为簇）以保持亲和度检查的可处理性。

如果您有兴趣尝试 TSN‑Affinity，作者已在 GitHub 上公开了代码。该方法为实现真正的持续离线学习代理提供了一条有前景的道路，使其能够在真实世界部署中安全高效地演进。

作者

Dominik Żurek
Kamil Faber
Marcin Pietron
Paweł Gajewski
Roberto Corizzo

论文信息

arXiv ID: 2604.25898v1
分类: cs.LG, cs.AI
出版日期: 2026年4月28日
PDF: 下载 PDF

[Paper] TSN-Affinity：相似度驱动的参数复用用于持续离线强化学习

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 递归多智能体系统

[Paper] 模型应多快投入监督？在 Tsallis 损失连续体上训练推理模型

[论文] Teacher Forcing 作为广义贝叶斯：混沌动力学中切换代理的优化几何不匹配

[Paper] 面向自然语言语义的函数式几何代数