[论文] 能自我进化的 Hypernetworks

发布: (2025年12月18日 GMT+8 19:05)
7 min read
原文: arXiv

Source: arXiv - 2512.16406v1

请提供您希望翻译的具体文本内容(例如摘要、引言、章节等),我将按照要求保留源链接并将文本翻译为简体中文。谢谢!

概述

本文介绍了 Self‑Referential Graph HyperNetworks (SR‑GHNs) ——一种新型神经系统,能够在没有外部优化器的情况下进行突变、继承和适应。通过将进化机制嵌入网络本身,SR‑GHNs 可以自主进化其参数,甚至其突变率,为实现真正的开放式、自主学习代理开辟了道路。

关键贡献

  • 自指架构:结合超网络、随机参数生成和基于图的表示,使网络能够生成演化自己的权重。
  • 可进化的突变率:将突变强度视为可选择的特性,使系统能够自动调节随时间的变化幅度。
  • 带有环境变化的基准测试:新建的强化学习任务(CartPoleSwitch、LunarLander‑Switch)在运行中切换动力学,展示了快速适应能力。
  • 涌现的人口动态:呈现自然类现象,如多样化、竞争和收敛,而无需手工设计的进化算子。
  • 真实世界的运动测试:在 Ant‑v5 中,SR‑GHNs 发现了连贯的步态,并在找到有前景的解后学会降低变异,暗示了在探索之后进行细粒度利用的能力。

方法论

  1. Graph HyperNetwork core – 该模型将每个神经组件(例如层或子模块)视为图中的一个节点。超网络读取此图并为每个节点的实际权重输出分布参数(均值、方差)。
  2. Stochastic weight sampling – 在每一次“生成”时,从输出的分布中采样具体权重,将变异直接引入网络的前向传播。
  3. Self‑referential mutation – 超网络还会输出一个突变率向量,决定下一代中每个分布应被扰动的程度。该向量本身也受到相同的采样/进化过程约束,使突变率成为可进化的特性。
  4. Evaluation loop – 将采样得到的网络在强化学习环境中运行,其奖励作为适应度信号反馈,并通过类似策略梯度的强化学习步骤更新超网络参数。没有外部遗传算法或基于梯度的优化器直接作用于采样得到的权重。
  5. Population view – 多个采样实例共存,形成一个虚拟种群。选择是隐式的:奖励更高的样本对超网络梯度的贡献更大,从而使未来的生成倾向于它们的分布参数。

结果与发现

Benchmark适应速度关键观察
CartPoleSwitch (杆子动力学在中途翻转)在切换后约30代内恢复了最优策略。突变率在变化后立即飙升,随后逐渐下降。
LunarLander‑Switch (重力反转)在变化后成功率超过90%,而静态基线停留在约55%。种群分化为两个子群,各自专注于一种重力环境。
Ant‑v5 (连续运动)在约150代内发现了稳定的步态;随后降低方差以微调步幅长度。出现了“先探索后利用”的行为:在早期搜索时突变率高,出现良好步态后突变率降低。

总体而言,SR‑GHNs 在依赖固定优化器的传统 RL 代理中始终表现更佳,尤其是在底层动力学突变的环境中。

实际意义

  • 非平稳环境中的自主代理 – 必须应对硬件磨损、传感器漂移或环境变化的机器人或物联网设备可以使用 SR‑GHNs 实现自我调整,无需基于云的重新训练。
  • 降低工程开销 – 开发者不再需要手工设计变异算子、交叉机制或安排学习率;网络会自行发现这些。
  • 开放式学习平台 – 游戏 AI、程序化内容生成或基于仿真的设计工具可以受益于能够持续进化新行为且无需外部监督的系统。
  • 资源高效的持续学习 – 由于超网络学习了权重的紧凑分布,存储单一模型即可重新生成众多多样化的策略,相比维护大量显式网络的种群可节省内存。

限制与未来工作

  • 可扩展性 – 实验仅限于中等规模的强化学习任务;将 SR‑GHNs 扩展到视觉密集或大规模语言模型仍是一个未解决的挑战。
  • 训练稳定性 – 随机采样可能导致梯度方差较大;作者指出如果缺乏细致的正则化,偶尔会出现多样性低的种群崩溃。
  • 可解释性 – 虽然突变率会作为特征出现,但仍难以理解为何在特定子任务中会选择某个具体的突变率。
  • 未来方向 – 作者提出整合更丰富的图拓扑结构(例如动态节点的添加/删除),与外部进化算法混合以进行引导,并在真实机器人平台上进行测试。

作者

  • Joachim Winther Pedersen
  • Erwan Plantec
  • Eleni Nisioti
  • Marcello Barylli
  • Milton Montero
  • Kathrin Korte
  • Sebastian Risi

论文信息

  • arXiv ID: 2512.16406v1
  • 分类: cs.NE, cs.AI
  • 出版日期: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »