[Paper] 统一的策略价值分解用于快速适应

发布: 1天前 (2026年3月19日 GMT+8 01:19)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.17947v1

概述

该论文提出了一种新的强化学习架构，使得智能体能够通过在策略网络和价值网络之间共享紧凑的“目标嵌入”，即时适应新任务。在预训练阶段学习一组可重用的基函数后，智能体可以仅通过一次前向传播处理新颖的目标（例如新的移动方向），无需额外的梯度更新。

预训练阶段
- 在 多目标 版本的 Ant 环境上训练一个 Soft Actor‑Critic (SAC) 代理，每个任务由连续的目标向量 g（例如行走方向）定义。
- 学习 价值基 y_k(s,a) 和 策略基 π_k(a|s)，它们是 任务无关 的；能够捕捉机器人的一般动力学。
双线性分解
- 评论家（Critic）: Q(s,a,g) = Σ_k G_k(g) · y_k(s,a)
- 行为者（Actor）: π(a|s,g) = Σ_k G_k(g) · π_k(a|s)
- G(g) ∈ ℝ^K 是由一个小型目标编码器网络产生的低维嵌入。
零样本适应
- 在预训练后冻结所有基函数。
- 对于新目标 g'，仅通过一次前向传播计算 G(g')，并将冻结的基函数组合，以瞬时获得新的策略/价值。
评估
- 在 未见过的方向（包括在八个训练航向之间插值以及超出范围的外推）上进行测试。
- 与标准 SAC（针对每个方向重新训练）以及没有共享嵌入的多头基线进行比较。

指标	Standard SAC (re‑trained)	Multi‑head (no sharing)	Bilinear Shared‑Embedding
在已训练方向上的成功率	96 %	94 %	97 %
在未见方向上的成功率	0 % (needs retraining)	12 %	85 %
适应延迟 (毫秒)	– (gradient steps)	5 ms	3 ms (single forward)
相对于 vanilla SAC 的参数开销	+12 %	+25 %	+15 %

Rapid Prototyping of Controllers – 工程师可以在一系列任务（例如不同的机器人步态模式）上预训练单个模型，然后将其部署到新的目标上，而无需昂贵的设备端学习。
Edge‑Device RL – 零样本适应只需要一次轻量级前向传播，使其适用于低功耗机器人、无人机或物联网执行器，这些设备无法承担迭代的梯度更新。
Modular Policy Libraries – 原始策略基底像可复用的“技能”，可以按需重新组合，简化层次化或组合式智能体的构建。
Transfer Across Sim‑to‑Real Gaps – 通过学习抽象环境细节的目标嵌入，同一架构可以在真实硬件上进行少量数据的微调。
Neuro‑Inspired Design – 增益调制机制为构建模仿皮层处理的强化学习系统提供了具体蓝图，可能提升系统的鲁棒性和可解释性。

未来的研究可以探索自动基底发现、多模态目标的层次嵌入，以及在真实机器人上的实际部署，以验证在噪声传感和执行环境下的零样本适应能力。