[Paper] 统一的策略价值分解用于快速适应
发布: (2026年3月19日 GMT+8 01:19)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.17947v1
概述
该论文提出了一种新的强化学习架构,使得智能体能够通过在策略网络和价值网络之间共享紧凑的“目标嵌入”,即时适应新任务。在预训练阶段学习一组可重用的基函数后,智能体可以仅通过一次前向传播处理新颖的目标(例如新的移动方向),无需额外的梯度更新。
关键贡献
- 双线性 Actor‑Critic 分解 – 将 Q 函数分解为价值基底与目标相关系数的乘积之和,并在策略网络中镜像该结构。
- 共享低维目标嵌入 – 单一系数向量
G(g)捕获任务身份,适用于 actor 与 critic,实现零样本适应。 - 受生物启发的增益调制 – 乘法门控类似于自上而下信号调节锥体神经元响应,提供了一个合理的神经类比。
- MuJoCo Ant 零样本迁移 – 通过在学习到的目标空间中插值,展示对未见行走方向的即时适应。
- 后继特征的扩展 – 将后继特征的概念从基于价值的强化学习推广到策略层面,生成可即时重新组合的“原始策略”。
方法论
-
预训练阶段
- 在 多目标 版本的 Ant 环境上训练一个 Soft Actor‑Critic (SAC) 代理,每个任务由连续的目标向量
g(例如行走方向)定义。 - 学习 价值基
y_k(s,a)和 策略基π_k(a|s),它们是 任务无关 的;能够捕捉机器人的一般动力学。
- 在 多目标 版本的 Ant 环境上训练一个 Soft Actor‑Critic (SAC) 代理,每个任务由连续的目标向量
-
双线性分解
- 评论家(Critic):
Q(s,a,g) = Σ_k G_k(g) · y_k(s,a) - 行为者(Actor):
π(a|s,g) = Σ_k G_k(g) · π_k(a|s) G(g) ∈ ℝ^K是由一个小型目标编码器网络产生的低维嵌入。
- 评论家(Critic):
-
零样本适应
- 在预训练后冻结所有基函数。
- 对于新目标
g',仅通过一次前向传播计算G(g'),并将冻结的基函数组合,以瞬时获得新的策略/价值。
-
评估
- 在 未见过的方向(包括在八个训练航向之间插值以及超出范围的外推)上进行测试。
- 与标准 SAC(针对每个方向重新训练)以及没有共享嵌入的多头基线进行比较。
结果与发现
| 指标 | Standard SAC (re‑trained) | Multi‑head (no sharing) | Bilinear Shared‑Embedding |
|---|---|---|---|
| 在 已训练 方向上的成功率 | 96 % | 94 % | 97 % |
| 在 未见 方向上的成功率 | 0 % (needs retraining) | 12 % | 85 % |
| 适应延迟 (毫秒) | – (gradient steps) | 5 ms | 3 ms (single forward) |
| 相对于 vanilla SAC 的参数开销 | +12 % | +25 % | +15 % |
- 共享目标嵌入 平滑插值 已知方向之间,即使在训练中未见过的角度也能产生合理的运动。
- 系数空间的可视化揭示了一个 结构化流形,其中相邻目标具有相似的
G(g)值,确认了嵌入捕获了任务相似性。 - 消融实验表明,仅冻结策略基(或仅冻结价值基)会导致性能下降,凸显了 联合 actor‑critic 因式分解 的重要性。
实际意义
- Rapid Prototyping of Controllers – 工程师可以在一系列任务(例如不同的机器人步态模式)上预训练单个模型,然后将其部署到新的目标上,而无需昂贵的设备端学习。
- Edge‑Device RL – 零样本适应只需要一次轻量级前向传播,使其适用于低功耗机器人、无人机或物联网执行器,这些设备无法承担迭代的梯度更新。
- Modular Policy Libraries – 原始策略基底像可复用的“技能”,可以按需重新组合,简化层次化或组合式智能体的构建。
- Transfer Across Sim‑to‑Real Gaps – 通过学习抽象环境细节的目标嵌入,同一架构可以在真实硬件上进行少量数据的微调。
- Neuro‑Inspired Design – 增益调制机制为构建模仿皮层处理的强化学习系统提供了具体蓝图,可能提升系统的鲁棒性和可解释性。
限制与未来工作
- 基底数量的可扩展性 – 基底数量
K必须手动选择;过少限制表达能力,过多则增加内存和推理成本。 - 目标表示的简易性 – 实验使用低维连续向量;将其扩展到高维或符号化目标(例如语言指令)仍未解决。
- 超出插值的泛化能力 – 虽然插值表现良好,但对截然不同的动力学(例如新机器人形态)的外推尚未评估。
- 生物可行性与工程权衡 – 增益调制类比很有趣,但尚未在神经生理数据上进行严格检验。
未来的研究可以探索自动基底发现、多模态目标的层次嵌入,以及在真实机器人上的实际部署,以验证在噪声传感和执行环境下的零样本适应能力。
作者
- Cristiano Capone
- Luca Falorsi
- Andrea Ciardiello
- Luca Manneschi
论文信息
- arXiv ID: 2603.17947v1
- 分类: cs.LG, q-bio.NC
- 发表时间: 2026年3月18日
- PDF: 下载 PDF