[Paper] NEVO-GSPT:基于种群的神经网络进化使用 Inflate 和 Deflate 操作符
发布: (2026年1月13日 GMT+8 23:35)
7 min read
原文: arXiv
Source: arXiv - 2601.08657v1
概述
本文提出了 NEVO‑GSPT,一种全新的神经进化框架,显著降低了搜索高性能神经网络架构的成本。通过从遗传编程中借用 geometric semantic operators 并加入一种新颖的 “deflate” 机制,作者实现了对网络行为的可预测、平滑的变化,同时保持模型的紧凑和高效。
关键贡献
- 几何语义算子用于神经网络 – 将几何语义算子(最初用于符号回归)适配到神经网络进化,保证结构性调整在单峰误差面上产生单调改进。
- 收缩‑增长‑收缩‑合并(DGSM)算子 – 引入受控的“收缩”步骤,剪除不必要的神经元/层,同时不破坏几何语义算子的语义保证。
- 高效评估方案 – 只需计算新加入组件的语义,实现快速基于种群的训练,降低通常数十亿次前向传播的成本。
- 紧凑且高性能的模型 – 实验性地进化出更小的网络,在四个回归基准上匹配或超越最先进的基线(标准神经网络、SLIM‑GSGP、TensorNEAT、SLM)。
- 种群层面的探索 – 该方法保留进化算法的多样性优势,同时保持计算可行性。
方法论
- 种群初始化 – 从一组最小的种子网络开始(通常是单个神经元或浅层 MLP)。
- 几何语义增长 (GSG) – 对每个父代,grow 操作符会添加一个新的子网络(例如隐藏层或一组神经元)。由于该操作符保持语义不变,新网络的输出是父代输出与新增组件的加权和,保证损失曲面出现可预测的偏移。
- 压缩‑增长‑收缩‑合并 (DGSM) – 经过几代增长后,deflate 步骤评估每个新增组件的贡献。低影响的部分被剪枝(shrink),冗余结构被合并,使模型保持精简,同时保留语义映射。
- 适应度评估 – 不重新评估整个网络,只计算新添加的子网络的前向传播;其余语义从前几代缓存。
- 选择与替换 – 标准锦标赛或精英选择挑选表现最佳的个体进入下一代,通过类似突变的随机初始化新组件来保持多样性。
整个流程以经典的进化循环运行,但由于语义缓存,前向传播调用次数显著减少。
结果与发现
| 基准 | 基线(例如 TensorNEAT) | NEVO‑GSPT(平均 RMSE) | 模型规模(参数) |
|---|---|---|---|
| Yacht | 0.62 | 0.58 | 1.2 K (≈ 30 % 更小) |
| Energy | 0.48 | 0.46 | 2.1 K (≈ 25 % 更小) |
| Concrete | 0.55 | 0.53 | 3.0 K (≈ 20 % 更小) |
| Kin8nm | 0.12 | 0.11 | 0.9 K (≈ 35 % 更小) |
- 性能: 在所有四个回归任务中,NEVO‑GSPT 要么匹配要么超越了报告的最佳 RMSE。
- 紧凑性: 进化得到的网络始终比竞争方法少 20‑35 % 的参数,验证了 DGSM 操作符的有效性。
- 速度: 由于每一代仅评估新组件,总训练时间相比于朴素的基于种群的神经进化基线下降约 50‑70 %。
实际意义
- 边缘与移动部署: 更小且同样准确的模型意味着在受限设备上的内存占用更低、推理速度更快——这对于物联网、AR/VR 以及设备端 AI 来说尤为理想。
- 快速原型开发: 开发者可以让 NEVO‑GSPT 自动探索架构空间,免去手动超参数搜索的繁琐,同时仍能控制模型大小。
- 成本效益高的 AutoML: 高效的评估策略显著降低 GPU 使用时长,使大规模神经架构搜索(NAS)对算力预算有限的创业公司和研究实验室更易获取。
- 可解释性钩子: 由于每一次结构变化都有已知的语义影响,工程师能够将性能提升追溯到具体的子网络增删,从而帮助调试和提升模型可解释性。
限制与未来工作
- 仅限回归任务: 实验聚焦于回归基准;在分类、序列或视觉任务上的行为尚未测试。
- 算子设计开销: 为任意神经网络层(例如卷积、注意力)实现 GSO 可能需要非平凡的工程工作。
- 对超深网络的可扩展性: 虽然该方法可以裁剪参数,但尚未在拥有数百层的架构(如 ResNet、Transformer)上验证。
- 未来方向: 作者建议将 DGSM 扩展至支持卷积滤波器的结构化剪枝、融合多目标优化(精度 vs. 延迟),以及将该框架应用于强化学习策略。
NEVO‑GSPT 展示了借鉴遗传编程思想如何为神经进化注入活力,以极低的计算成本交付紧凑且高性能的网络——这对希望在不大幅增加云费用的情况下实现架构自动化的开发者而言,是一个极具吸引力的前景。
作者
- Davide Farinati
- Frederico J. J. B. Santos
- Leonardo Vanneschi
- Mauro Castelli
论文信息
- arXiv ID: 2601.08657v1
- 分类: cs.NE
- 发布时间: 2026年1月13日
- PDF: 下载 PDF