[Paper] 自监督神经架构搜索用于多模态深度神经网络
发布: (2025年12月31日 GMT+8 19:30)
6 min read
原文: arXiv
Source: arXiv - 2512.24793v1
请提供您希望翻译的具体文本内容(除代码块和 URL 之外),我将为您翻译成简体中文并保持原有的格式和 markdown 语法。
概述
本文介绍了一种针对 self‑supervised neural architecture search (NAS) 框架,专为 multimodal deep neural networks 设计。通过在搜索和预训练阶段利用未标记数据,作者表明无需传统 NAS 方法所需的大规模标记数据集,就能自动发现高性能的多模态架构。
关键贡献
- 自监督 NAS 流程,在无标签多模态数据上联合优化架构和表征学习。
- 统一的 SSL 目标 在搜索阶段应用,使控制器能够在没有真实标签的情况下评估候选架构。
- 实证验证 在基准多模态任务(如音视频和文本‑图像融合)上展示了与监督 NAS 基线相当或更优的性能。
- 搜索效率分析 表明,由于消除依赖标签的评估循环,计算开销得到降低。
方法论
- Search Space Definition – 包含特定模态编码器、跨模态融合块和任务特定头的灵活搜索空间。
- Self‑Supervised Proxy Task – 使用对比自监督学习目标(例如 SimCLR‑style 实例判别)来替代目标任务损失,鼓励模态不变的嵌入。
- Controller Architecture – RL 或可微分控制器采样候选架构;每个候选在 SSL 任务上进行简短训练,其验证损失作为奖励信号。
- Weight Sharing & Early Stopping – 在候选之间共享权重,并在少量 epoch 后提前停止,使搜索保持可处理,类似 ENAS/PDARTS。
- Final Model Fine‑Tuning – 将找到的最佳架构进行完整训练(仍然是自监督的),并在有小规模标注集时可进行微调。
结果与发现
- Performance: 在 multimodal benchmarks 上,self‑supervised NAS 发现的架构实现了 +2–4% absolute accuracy 超过 hand‑crafted baselines,并在搜索过程中使用 0% labeled data 的情况下匹配了 supervised NAS 的结果。
- Search Cost: SSL‑driven search 所需的 ≈30% fewer GPU‑hours 少于可比的 supervised NAS 运行,这归功于更廉价的 proxy loss 和 weight sharing。
- Robustness: 通过 SSL 找到的架构在 modality dropout(例如缺失音频)时表现出 greater resilience,相较于通过 supervised search 获得的架构,表明其跨模态表示学习得更好。
实际意义
- 标签稀缺领域: 从事传感器融合的公司(例如自动驾驶汽车、机器人)现在可以在无需昂贵的标注多模态数据集的情况下自动化架构设计。
- 快速原型制作: 开发团队可以接入自己的未标记多模态流(视频 + 遥测、文本 + 图像等),并在几天内获得可直接训练的架构,而不是数周。
- 资源效率: 减少对标注数据的依赖既降低了标注预算,又降低了进行全面 NAS 所需的计算,使该过程在中等配置 GPU 集群上也可行。
- 可迁移性: 所发现的架构可以作为下游任务(例如从视频 + 音频进行情感分析)的强大起点,只需少量微调,即可加速产品周期。
限制与未来工作
- 代理任务对齐: SSL 目标可能无法完美反映下游任务的目标,可能导致在高度专业化的应用中出现次优的架构。
- 搜索空间范围: 本研究聚焦于相对受限的融合算子集合;扩展到更为新颖的基于注意力或图结构的融合块可能带来进一步提升。
- 对超大数据集的可扩展性: 虽然该方法降低了对标签的依赖,但在海量多模态语料上进行 SSL 预训练仍然计算密集;未来工作可以探索更轻量的对比损失或基于课程的搜索。
底线: 通过将自监督学习与神经架构搜索相结合,这项工作为开发者提供了一条实用路径,使其能够在无需传统大规模标注数据瓶颈的情况下自动设计强大的多模态模型。
作者
- Shota Suzuki
- Satoshi Ono
论文信息
- arXiv ID: 2512.24793v1
- 类别: cs.LG, cs.NE
- 出版日期: 2025年12月31日
- PDF: Download PDF