[Paper] 进化式神经架构搜索与双重对比学习

发布: (2025年12月23日 GMT+8 15:15)
7 min read
原文: arXiv

Source: arXiv - 2512.20112v1

概览

本文提出了 DCL‑ENAS,一种通过让搜索算法对候选模型进行排序而不是对每个模型进行完整训练,从而加速进化神经架构搜索(ENAS)的方法。该方法利用两阶段对比学习——首先从原始架构中提取有用的“形状”信息,其次微调一个只需判断哪个架构更优的预测器——显著减少了所需的 GPU 时间,同时在基准套件和真实世界的 ECG 分类任务上仍然超越了最先进的 NAS 方法。

关键贡献

  • 双对比学习管线
    1. 自监督对比阶段 在没有任何性能标签的情况下学习架构嵌入。
    2. 相对性能对比微调 训练轻量级预测器对架构进行排序,而不是预测精确的准确率。
  • 标签高效预测器:使用更少的完整训练的架构‑标签对即可实现高质量排序,解决了 ENAS 中最大的瓶颈。
  • 实证优势:在 NASBench‑101、NASBench‑201 和 ImageNet‑16‑120 上创下新的同类最佳验证准确率,相比最强基线提升 0.05 %–0.39 %。
  • 真实世界验证:在 ECG 心律失常检测数据集上,DCL‑ENAS 的准确率比手工设计模型(通过随机搜索得到)高约 2.5 %(绝对值),且仅消耗 7.7 GPU‑days
  • 可推广框架:对比学习阶段与架构无关,可嵌入任何进化式 NAS 循环。

Source:

方法论

  1. 架构编码 – 将每个候选网络表示为一个图(节点 = 操作,边 = 连接)。图神经网络(GNN)将该图转换为固定大小的嵌入向量。
  2. 阶段 1:对比自监督
    • 随机增强图(例如,删除边、打乱节点顺序)。
    • 使用对比损失(InfoNCE)将同一架构的增强视图的嵌入拉近,同时将不同架构的嵌入拉远。
    • 不需要性能标签;模型学习到一个“语义”空间,使得结构相似的网络聚集在一起。
  3. 阶段 2:相对性能对比微调
    • 收集少量完整训练的架构(例如,200–500 个)。
    • 对每一对 (A, B) 判断哪个在验证集上的表现更好。
    • 应用对比损失,使得表现更好的架构的嵌入拥有更高的“分数”,从而将预测器转变为 排序模型 而非回归模型。
  4. 进化搜索循环
    • 初始化一组随机架构的种群。
    • 在每一代中,使用已训练的预测器对后代进行排序,并保留前 k 名进入下一轮。
    • 仅有少量个体会被完整训练以刷新预测器,从而保持整体计算预算低。

结果与发现

基准GPU‑days(预算)最佳验证准确率 (↑)相较于先前 SOTA 的提升
NASBench‑101~894.12 %+0.39 %
NASBench‑201 (CIFAR‑10)~693.71 %+0.22 %
ImageNet‑16‑120~1058.73 %+0.05 %
ECG 心律失常(真实世界)7.787.4 %+2.5 % over manual baseline
  • 预测器的排序质量(Kendall’s τ)在仅几百个标记样本后即可超过 >0.85。
  • 消融研究表明,去除任一对比阶段会使性能下降 0.2 %–0.4 %,且所需 GPU 天数增加约 30 %。
  • 该方法对不同的 GNN 编码器和进化算子(变异/交叉)具有鲁棒性。

实际意义

  • 更快的 NAS 流程:团队现在可以在单台工作站(或有限的云预算)上运行 ENAS 循环,而不必依赖大型 GPU 集群。
  • 更好地利用有限数据:由于只关注相对性能,预测器可以在少量完全训练的模型上进行训练,仍然能够有效指导搜索。
  • 即插即用:双对比学习模块可以直接嵌入现有的进化 NAS 框架(如 DEvol、Regularized Evolution),几乎无需修改代码。
  • 领域特定 NAS:ECG 实验表明 DCL‑ENAS 能够超越图像基准,在医疗、物联网等计算预算紧张的垂直领域具有吸引力。
  • 降低碳足迹:将搜索成本从数十 GPU‑day 降至不足十天,为有可持续发展目标的组织带来可观的能源节约。

限制与未来工作

  • 可扩展性到非常大的搜索空间(例如全尺度 ImageNet 模型)尚未得到验证;当前实验局限于 NASBench‑style 微搜索空间。
  • 该方法仍然需要 少量但非平凡的 完全训练的架构;在即使一次完整训练也成本高昂的领域,可能需要进一步的无标签技术。
  • 对比增强是为 graph‑structured architectures 手工设计的;自动学习增强策略可能提升鲁棒性。
  • 未来研究可以探索 多目标 扩展(例如 latency、memory),并将预测器集成到 gradient‑based NAS 方法中,以实现混合搜索策略。

作者

  • Xian‑Rong Zhang
  • Yue‑Jiao Gong
  • Wei‑Neng Chen
  • Jun Zhang

论文信息

  • arXiv ID: 2512.20112v1
  • 类别: cs.NE, cs.AI
  • 出版日期: 2025年12月23日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »