[Paper] SQUAD:可扩展的 Quorum 自适应决策 via early exit 神经网络集成

发布: (2026年1月30日 GMT+8 16:32)
8 分钟阅读
原文: arXiv

Source: arXiv - 2601.22711v1

概述

早退出神经网络允许模型在“足够自信”时提前停止推理,从而降低实时应用的延迟。全新的 SQUAD 框架更进一步,将这些早退出与轻量级集成相结合,基于 quorum 的中间预测多数而不是单一置信分数来做决策。其结果是更可靠的不确定性估计、更高的准确率以及显著降低的推理时间。

关键贡献

  • 基于多数(Quorum)停止规则 – SQUAD 从多个早退出分支收集预测,并在达到统计显著的共识(多数)时停止计算。
  • 分布式早退出集成 – 与传统的并行运行完整模型的集成不同,SQUAD 逐步激活越来越复杂的分支,保持计算预算低。
  • QUEST(Quorum Search Technique) – 一种神经架构搜索(NAS)过程,自动选择一组具有互补(层次多样)表示的早退出学习器,最大化投票方案的收益。
  • 实证提升 – 在相似 FLOPs 下,相比最佳动态早退出基线,测试准确率提升最高 5.95 %,相较于具有相似准确率的静态集成,延迟降低 70.6 %
  • 可扩展设计 – 该方法适用于图像分类(CV),并可扩展到其他已使用早退出网络的领域(如语音、NLP)。

方法论

  1. 带多个出口的基础架构 – 在深度网络(例如 ResNet)中嵌入多个分类头,放置在逐渐加深的层次。每个头都可以独立产生预测。
  2. 增量推理 – 在一次前向传播中,模型先评估第一个(最廉价的)出口,然后是第二个,依此类推。每个出口之后,收集所有已激活出口的预测。
  3. 法定人数决策 – 统计检验(例如二项检验或置信区间)检查收集到的预测中是否有多数在同一类别上达到了足够的显著性。如果满足法定人数条件,推理停止并返回一致的标签。
  4. QUEST NAS – 为了使法定人数有效,QUEST 在可能的出口位置和头部结构上进行搜索,优化多样性(不同的特征抽象)和效率(最小的额外 FLOPs)。搜索目标在准确率、延迟和早期法定人数形成的可能性之间取得平衡。
  5. 训练 – 所有出口使用加权损失之和进行联合训练,既鼓励每个分支单独有用,又促进它们在法定人数上协同工作。

Results & Findings

MetricSQUAD (with QUEST)Best prior dynamic early‑exitStatic ensemble
Test accuracy (CIFAR‑100)比基线提升 +5.95 %可比
Average inference latency比静态集成降低 70.6 %
FLOPs per sample与单模型早退出的数量级相同类似
Quorum formation rate~60 % 的样本在第 2‑3 个出口停止N/A
  • 更高的准确率 来源于集成效应:即使是早期退出也能受益于“群体智慧”。
  • 延迟降低 是因为许多输入在仅一次或两次廉价退出后就达成法定人数;只有最困难的案例才会进入更深层。
  • 稳健的不确定性:法定人数测试缓解了单模型置信阈值常出现的过度自信但错误的预测。

实际影响

  • Edge & mobile AI – 计算资源受限的设备可以运行单个 SQUAD 模型,而不是多个完整网络,从而节省功耗并保持高精度。
  • Real‑time services – 视频分析、自动驾驶感知系统或推荐引擎可以通过对容易的输入提前终止推理,满足严格的延迟 SLA。
  • Model‑as‑a‑service – 云服务提供商可以提供“按延迟付费”层级,客户在低风险查询上获得更快响应,同时不牺牲整体质量。
  • Simplified deployment – 由于 SQUAD 是单一架构(而非多个独立模型的集合),其版本管理、监控和 A/B 测试比传统集成模型更简便。
  • Improved safety – 法定人数要求充当内置的合理性检查;如果模型无法达成共识,可回退到更高成本、更高不确定性的路径(例如,将请求发送给人工审查员)。

限制与未来工作

  • Quorum 超参数(显著性水平、最小一致性)需要针对每个数据集和延迟预算进行调优;不佳的设置可能会浪费计算资源或降低准确率。
  • 当前实验聚焦于图像分类;将其扩展到序列模型(例如用于自然语言处理的 Transformer)可能需要重新设计退出头和 quorum 统计。
  • 虽然 QUEST 的 NAS 搜索是自动化的,但会带来前期计算成本;使用更轻量的代理指标或对退出配置进行迁移学习,可能使其对小团队更实用。
  • 该方法假设早期退出足够独立;在高度相关的架构中,quorum 可能收益有限。未来工作可以探索去相关正则化或多样化的训练目标。

结论: SQUAD 表明,对早期退出分支进行智能投票方案可以让开发者兼得两者优势——拥有类似集成水平的准确率,同时具备早期退出的低延迟。对于构建延迟关键型 AI 服务的团队,这是一种值得尝试的有吸引力的模式。

作者

  • Matteo Gambella
  • Fabrizio Pittorino
  • Giuliano Casale
  • Manuel Roveri

论文信息

  • arXiv ID: 2601.22711v1
  • 分类: cs.LG, cs.CV, cs.DC
  • 出版日期: 2026年1月30日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »