[Paper] SQUAD：可扩展的 Quorum 自适应决策 via early exit 神经网络集成

发布: 1周前 (2026年1月30日 GMT+8 16:32)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.22711v1

概述

早退出神经网络允许模型在“足够自信”时提前停止推理，从而降低实时应用的延迟。全新的 SQUAD 框架更进一步，将这些早退出与轻量级集成相结合，基于 quorum 的中间预测多数而不是单一置信分数来做决策。其结果是更可靠的不确定性估计、更高的准确率以及显著降低的推理时间。

基于多数（Quorum）停止规则 – SQUAD 从多个早退出分支收集预测，并在达到统计显著的共识（多数）时停止计算。
分布式早退出集成 – 与传统的并行运行完整模型的集成不同，SQUAD 逐步激活越来越复杂的分支，保持计算预算低。
QUEST（Quorum Search Technique） – 一种神经架构搜索（NAS）过程，自动选择一组具有互补（层次多样）表示的早退出学习器，最大化投票方案的收益。
实证提升 – 在相似 FLOPs 下，相比最佳动态早退出基线，测试准确率提升最高 5.95 %，相较于具有相似准确率的静态集成，延迟降低 70.6 %。
可扩展设计 – 该方法适用于图像分类（CV），并可扩展到其他已使用早退出网络的领域（如语音、NLP）。

带多个出口的基础架构 – 在深度网络（例如 ResNet）中嵌入多个分类头，放置在逐渐加深的层次。每个头都可以独立产生预测。
增量推理 – 在一次前向传播中，模型先评估第一个（最廉价的）出口，然后是第二个，依此类推。每个出口之后，收集所有已激活出口的预测。
法定人数决策 – 统计检验（例如二项检验或置信区间）检查收集到的预测中是否有多数在同一类别上达到了足够的显著性。如果满足法定人数条件，推理停止并返回一致的标签。
QUEST NAS – 为了使法定人数有效，QUEST 在可能的出口位置和头部结构上进行搜索，优化多样性（不同的特征抽象）和效率（最小的额外 FLOPs）。搜索目标在准确率、延迟和早期法定人数形成的可能性之间取得平衡。
训练 – 所有出口使用加权损失之和进行联合训练，既鼓励每个分支单独有用，又促进它们在法定人数上协同工作。

Metric	SQUAD (with QUEST)	Best prior dynamic early‑exit	Static ensemble
Test accuracy (CIFAR‑100)	比基线提升 +5.95 %	–	可比
Average inference latency	比静态集成降低 70.6 %	–	–
FLOPs per sample	与单模型早退出的数量级相同	–	类似
Quorum formation rate	~60 % 的样本在第 2‑3 个出口停止	–	N/A

Edge & mobile AI – 计算资源受限的设备可以运行单个 SQUAD 模型，而不是多个完整网络，从而节省功耗并保持高精度。
Real‑time services – 视频分析、自动驾驶感知系统或推荐引擎可以通过对容易的输入提前终止推理，满足严格的延迟 SLA。
Model‑as‑a‑service – 云服务提供商可以提供“按延迟付费”层级，客户在低风险查询上获得更快响应，同时不牺牲整体质量。
Simplified deployment – 由于 SQUAD 是单一架构（而非多个独立模型的集合），其版本管理、监控和 A/B 测试比传统集成模型更简便。
Improved safety – 法定人数要求充当内置的合理性检查；如果模型无法达成共识，可回退到更高成本、更高不确定性的路径（例如，将请求发送给人工审查员）。

结论: SQUAD 表明，对早期退出分支进行智能投票方案可以让开发者兼得两者优势——拥有类似集成水平的准确率，同时具备早期退出的低延迟。对于构建延迟关键型 AI 服务的团队，这是一种值得尝试的有吸引力的模式。