[Paper] TSN-Affinity:相似度驱动的参数复用用于持续离线强化学习
发布: (2026年4月29日 GMT+8 01:41)
8 分钟阅读
原文: arXiv
Source: arXiv - 2604.25898v1
概述
Continual Offline Reinforcement Learning (CORL) 旨在解决在 不进行任何实时交互 的情况下,对单一智能体进行一系列任务训练的难题——可以把它想象成在不破坏机器人已有能力的前提下,利用已记录的数据批次来更新机器人的技能集合。论文 TSN‑Affinity 提出了一种全新的架构方法,能够规避基于重放的方式所带来的巨量内存需求和分布漂移问题,采用极小的、任务专属子网络以及基于相似度的路由机制,仅在有意义时才共享知识。
关键贡献
- TinySubNetwork (TSN) 架构用于 CORL – 每个新任务获得一个轻量级的“子网络”,复用基础模型的一部分参数。
- 基于亲和力的路由 – 一种新颖的 RL 感知相似度度量(动作兼容性 + 潜在嵌入相似性)决定哪个子网络处理给定状态,实现受控的参数共享。
- 与 Decision Transformers 的集成 – 利用 Transformer 在离线 RL 中的序列建模优势,同时保持 TSN 开销最小。
- 全面的实证评估 – 在 Atari(离散)和 Franka Emika Panda 操作(连续)上的实验表明,相比重放基线,具有更好的保持性和多任务性能。
- 开源实现 – 代码已发布,便于可重复性和社区扩展。
方法论
- Base Model: 标准的 Decision Transformer (DT) 将轨迹处理为令牌序列(状态、动作、返回值)。
- TinySubNetworks: 对每个新任务,学习一个二进制掩码,仅激活 DT 权重的一小部分,形成任务特定的子网络。其余参数在所有任务之间共享。
- Affinity Scoring:
- Action Compatibility(动作兼容性):衡量两个任务的动作分布有多相似(例如,两者都需要“向左移动”)。
- Latent Similarity(潜在相似性):计算不同任务状态隐藏表示之间的余弦相似度。
综合得分决定新任务是复用已有子网络还是生成全新子网络。
- Routing at Inference(推理时路由):当智能体收到状态时,它会对所有已有子网络计算亲和分数,并选择兼容性最高的子网络,从而将决策“路由”到最相关的参数集合。
- Training Loop(训练循环):离线数据集按顺序处理。对于每个任务,仅更新其指定的子网络,而共享权重则接受所有任务的梯度,促进知识迁移且不覆盖任务特有的细微差别。
结果与发现
| 基准 | Replay‑CL(基线) | TSN‑Affinity(我们的) | 保持率(5 个任务后的Δ) |
|---|---|---|---|
| Atari(10 款游戏) | 78 % 平均得分 | 84 % 平均得分 | +12 % |
| Franka Panda(抓取‑放置) | 0.62 成功率 | 0.71 成功率 | +15 % |
- 保持率:在学习了五个任务后,TSN‑Affinity 在早期任务上的性能下降 <5 %,而重放方法下降 >15 %。
- 参数效率:每个子网络使用约 8 % 的完整模型参数;总内存随任务线性增长,但仍保持适度(约为基准 DT 的 1.4 倍,十个任务后)。
- 路由增益:加入基于亲和力的路由器,使多任务得分比朴素的“首匹配”子网络选择提升约 4 %。
- 训练速度:由于每个任务仅更新稀疏掩码,单任务训练时间比完整模型微调降低约 30 %。
实际影响
- 机器人与边缘设备:公司可以通过已记录的传感器日志持续升级机器人的功能,而无需将其从生产环境中取出,同时保持固件占用空间低。
- 安全关键系统:在自动驾驶等领域,在线探索风险高,TSN‑Affinity 能够从仿真或车队数据中进行增量策略更新,避免灾难性遗忘。
- 资源受限的云服务:提供强化学习即服务的 SaaS 平台可以在单一模型中托管多个客户特定的策略,通过子网络路由降低 GPU 内存占用和推理延迟。
- 简化部署流水线:无需维护大型回放缓冲区或进行昂贵的数据洗牌;新任务只需训练一个小掩码并更新共享骨干网络即可。
限制与未来工作
- 亲和度计算的可扩展性:随着任务数量的增加,对所有已有子网络进行相似度评估可能成为瓶颈;近似最近邻方法是一种可能的解决方案。
- 任务相似性假设:路由依赖于有意义的潜在相似性;高度不同的任务(例如基于视觉的导航与纯控制)可能仍需使用独立的大子网络,从而限制参数共享。
- 离线数据集质量:与所有离线强化学习方法一样,性能取决于记录轨迹的覆盖度和质量;噪声或偏差的日志会降低亲和度分数。
- 未来方向:将 TSN‑Affinity 扩展到 元学习 场景,使模型能够通过少量示例快速推断新掩码,并探索 层次化路由(将任务分组为簇)以保持亲和度检查的可处理性。
如果您有兴趣尝试 TSN‑Affinity,作者已在 GitHub 上公开了代码。该方法为实现真正的持续离线学习代理提供了一条有前景的道路,使其能够在真实世界部署中安全高效地演进。
作者
- Dominik Żurek
- Kamil Faber
- Marcin Pietron
- Paweł Gajewski
- Roberto Corizzo
论文信息
- arXiv ID: 2604.25898v1
- 分类: cs.LG, cs.AI
- 出版日期: 2026年4月28日
- PDF: 下载 PDF