[论文] DGPO：RL 引导的图扩散用于神经架构生成

发布: 3天前 (2026年2月23日 GMT+8 00:23)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.19261v1

Overview

本文介绍了 Directed Graph Policy Optimization (DGPO)，这是一种新颖的框架，将强化学习（RL）微调与离散图扩散相结合，用于生成表示神经网络结构的 有向无环图 (DAG)。通过显式处理边的方向性——这是此前的图扩散模型所忽略的——DGPO 能够引导生成过程朝向高性能的架构，并且甚至可以超出训练数据的范围进行推断。

关键贡献

方向感知扩散: 将离散图扩散扩展到有向无环图（DAG），使用拓扑节点排序和位置编码，保持数据流语义。
RL 引导的生成: 应用策略梯度强化学习对扩散模型进行微调，使其朝向奖励（例如验证准确率）优化，同时保持底层生成分布不变。
可迁移的结构先验: 表明仅在 NAS 基准搜索空间的 7 % 上进行预训练的模型，经过 RL 微调后能够生成接近最优的架构。
强劲的实证结果: 在 NAS‑Bench‑101 以及 NAS‑Bench‑201 的三个任务上匹配或超越已知最佳分数（分别为 91.61 %、73.49 %、46.77 %）。
双向控制实验: 证明了真实的基于奖励的引导——若优化相反目标，性能会降至随机水平。

方法论

在来自 NAS 基准的大规模随机 DAG 池上预训练离散图扩散模型。扩散过程学习将受损的图“去噪”回有效的架构。
编码方向性：
- 拓扑排序 确保每条边都从低秩节点指向高秩节点，从而强制保持无环性。
- 位置编码（类似于 Transformer 中使用的）被加入节点特征，使得扩散网络能够区分上游和下游节点。
强化学习微调 (DGPO)：
- 将扩散模型视为一个随机策略，用于采样候选架构。
- 计算奖励（例如，在代理数据集上的验证准确率）。
- 使用 策略梯度 更新（带基线的 REINFORCE），在保持扩散先验的同时提升高奖励图的概率。
评估： 从微调后的模型中采样数千个架构，在基准上进行评估，并与 oracle 方法和基线方法进行比较。

结果与发现

Benchmark	Metric (higher is better)	DGPO (full data)	DGPO (7 % pre‑train)	Oracle / Best Known
NAS‑Bench‑201 (CIFAR‑10)	Accuracy %	91.61	91.29 (‑0.32)	91.61
NAS‑Bench‑201 (CIFAR‑100)	Accuracy %	73.49	73.20 (‑0.29)	73.49
NAS‑Bench‑201 (ImageNet‑16‑120)	Accuracy %	46.77	46.44 (‑0.33)	46.77

可迁移性： 仅使用 7 % 的搜索空间进行预训练，DGPO 仍然能够在全数据性能的 0.32 % 以内，表明扩散模型学习到了可复用的架构模式。
外推能力： 在 RL 微调后，DGPO 超过了预训练模型的性能上限约 7.3 %，说明 RL 步骤发现了原始训练集未出现的全新高质量结构。
对照实验： 当奖励被取反（即模型被训练去最小化准确率）时，生成的架构性能几乎随机（约 9.5 % 的准确率），验证了改进来源于奖励驱动的引导，而非有偏的扩散先验。

实际影响

加速的 NAS 流程: 开发者可以在搜索空间的一个适度子集上预训练一个紧凑的扩散模型，然后在特定硬件或延迟预算上使用强化学习进行微调，从而显著减少昂贵的完整训练评估次数。
领域无关的生成式设计: 方向感知的扩散框架可以重新用于任何边缘方向重要的组合设计问题（例如，数据流管道、编译器优化图、电路合成）。
即插即用的奖励函数: 由于 DGPO 将扩散模型视为策略，任何可微分或黑箱度量（能耗、FLOPs、延迟、鲁棒性）都可以在不重新设计生成器的情况下直接替换。
降低碳足迹: 通过减少完整训练的次数，组织可以降低大规模 NAS 任务的计算成本及其相关排放。

限制与未来工作

Scalability to larger search spaces: 实验仅限于 NAS‑Bench‑101/201（≤ 10⁶ 架构）。将 DGPO 扩展到工业规模的 NAS（数十亿候选）可能需要层次化扩散或内存高效的编码。
Reward latency: RL 微调仍然依赖于对采样的架构进行评估，这在高成本训练方案中可能成为瓶颈；使用代理预测器或权重共享可以缓解此问题。
Generalization beyond DAGs: 虽然该方法对有向无环图（DAG）处理良好，但许多实际图包含循环（例如循环网络）。将拓扑排序技巧适用于循环图仍是一个未解决的挑战。
Theoretical guarantees: 论文提供了奖励引导的实证证据，但缺乏对组合扩散‑RL 系统的形式收敛性或最优性证明。

DGPO 弥合了强大的生成扩散模型与神经架构搜索所需精确控制之间的鸿沟，为希望利用 AI 驱动设计而不被计算密集型搜索淹没的开发者提供了实用的工具集。

作者

Aleksei Liuliakov
Luca Hermes
Barbara Hammer

论文信息

arXiv ID: 2602.19261v1
分类: cs.LG, cs.AI, cs.NE
发表时间: 2026年2月22日
PDF: 下载 PDF

[论文] DGPO：RL 引导的图扩散用于神经架构生成

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 测试时训练结合 KV 绑定实际上是线性注意力

[Paper] Squint：用于Sim-to-Real机器人的快速视觉强化学习

[Paper] 从试错中学习：面向 Embodied LLMs 的反思式测试时规划

[Paper] Untied Ulysses：内存高效上下文并行 via Headwise Chunking

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 测试时训练结合 KV 绑定 实际上是线性注意力

[Paper] Squint：用于Sim-to-Real机器人的快速视觉强化学习

[Paper] 从试错中学习：面向 Embodied LLMs 的反思式测试时规划

[Paper] Untied Ulysses：内存高效上下文并行 via Headwise Chunking

[Paper] 测试时训练结合 KV 绑定实际上是线性注意力