[Paper] 统一的策略价值分解用于快速适应

发布: (2026年3月19日 GMT+8 01:19)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.17947v1

概述

该论文提出了一种新的强化学习架构,使得智能体能够通过在策略网络和价值网络之间共享紧凑的“目标嵌入”,即时适应新任务。在预训练阶段学习一组可重用的基函数后,智能体可以仅通过一次前向传播处理新颖的目标(例如新的移动方向),无需额外的梯度更新。

关键贡献

  • 双线性 Actor‑Critic 分解 – 将 Q 函数分解为价值基底与目标相关系数的乘积之和,并在策略网络中镜像该结构。
  • 共享低维目标嵌入 – 单一系数向量 G(g) 捕获任务身份,适用于 actor 与 critic,实现零样本适应。
  • 受生物启发的增益调制 – 乘法门控类似于自上而下信号调节锥体神经元响应,提供了一个合理的神经类比。
  • MuJoCo Ant 零样本迁移 – 通过在学习到的目标空间中插值,展示对未见行走方向的即时适应。
  • 后继特征的扩展 – 将后继特征的概念从基于价值的强化学习推广到策略层面,生成可即时重新组合的“原始策略”。

方法论

  1. 预训练阶段

    • 多目标 版本的 Ant 环境上训练一个 Soft Actor‑Critic (SAC) 代理,每个任务由连续的目标向量 g(例如行走方向)定义。
    • 学习 价值基 y_k(s,a)策略基 π_k(a|s),它们是 任务无关 的;能够捕捉机器人的一般动力学。
  2. 双线性分解

    • 评论家(Critic): Q(s,a,g) = Σ_k G_k(g) · y_k(s,a)
    • 行为者(Actor): π(a|s,g) = Σ_k G_k(g) · π_k(a|s)
    • G(g) ∈ ℝ^K 是由一个小型目标编码器网络产生的低维嵌入。
  3. 零样本适应

    • 在预训练后冻结所有基函数。
    • 对于新目标 g',仅通过一次前向传播计算 G(g'),并将冻结的基函数组合,以瞬时获得新的策略/价值。
  4. 评估

    • 未见过的方向(包括在八个训练航向之间插值以及超出范围的外推)上进行测试。
    • 与标准 SAC(针对每个方向重新训练)以及没有共享嵌入的多头基线进行比较。

结果与发现

指标Standard SAC (re‑trained)Multi‑head (no sharing)Bilinear Shared‑Embedding
已训练 方向上的成功率96 %94 %97 %
未见 方向上的成功率0 % (needs retraining)12 %85 %
适应延迟 (毫秒)– (gradient steps)5 ms3 ms (single forward)
相对于 vanilla SAC 的参数开销+12 %+25 %+15 %
  • 共享目标嵌入 平滑插值 已知方向之间,即使在训练中未见过的角度也能产生合理的运动。
  • 系数空间的可视化揭示了一个 结构化流形,其中相邻目标具有相似的 G(g) 值,确认了嵌入捕获了任务相似性。
  • 消融实验表明,仅冻结策略基(或仅冻结价值基)会导致性能下降,凸显了 联合 actor‑critic 因式分解 的重要性。

实际意义

  • Rapid Prototyping of Controllers – 工程师可以在一系列任务(例如不同的机器人步态模式)上预训练单个模型,然后将其部署到新的目标上,而无需昂贵的设备端学习。
  • Edge‑Device RL – 零样本适应只需要一次轻量级前向传播,使其适用于低功耗机器人、无人机或物联网执行器,这些设备无法承担迭代的梯度更新。
  • Modular Policy Libraries – 原始策略基底像可复用的“技能”,可以按需重新组合,简化层次化或组合式智能体的构建。
  • Transfer Across Sim‑to‑Real Gaps – 通过学习抽象环境细节的目标嵌入,同一架构可以在真实硬件上进行少量数据的微调。
  • Neuro‑Inspired Design – 增益调制机制为构建模仿皮层处理的强化学习系统提供了具体蓝图,可能提升系统的鲁棒性和可解释性。

限制与未来工作

  • 基底数量的可扩展性 – 基底数量 K 必须手动选择;过少限制表达能力,过多则增加内存和推理成本。
  • 目标表示的简易性 – 实验使用低维连续向量;将其扩展到高维或符号化目标(例如语言指令)仍未解决。
  • 超出插值的泛化能力 – 虽然插值表现良好,但对截然不同的动力学(例如新机器人形态)的外推尚未评估。
  • 生物可行性与工程权衡 – 增益调制类比很有趣,但尚未在神经生理数据上进行严格检验。

未来的研究可以探索自动基底发现、多模态目标的层次嵌入,以及在真实机器人上的实际部署,以验证在噪声传感和执行环境下的零样本适应能力。

作者

  • Cristiano Capone
  • Luca Falorsi
  • Andrea Ciardiello
  • Luca Manneschi

论文信息

  • arXiv ID: 2603.17947v1
  • 分类: cs.LG, q-bio.NC
  • 发表时间: 2026年3月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »