[Paper] HAPS:层次化 LLM 路由与联合架构及参数搜索
发布: (2026年1月10日 GMT+8 00:22)
6 min read
原文: arXiv
Source: arXiv - 2601.05903v1
Overview
本文提出了 HAPS,一种层次化路由系统,能够自动为给定任务挑选最佳的大语言模型(LLM)以及其最优超参数。通过将架构选择与参数调优相结合,HAPS 在准确率上超越了仅在模型家族之间进行选择的先前路由方法。
关键贡献
- Joint Architecture‑Parameter Search: 引入一个两级路由器,首先选择 LLM 架构,然后微调其参数,而不是将这些决策分开处理。
- Parameter Generation Network (PGN): 一个共享网络,为两个路由器生成候选参数设置,实现架构搜索与参数搜索之间的知识转移。
- Reward‑Augmented Training Objective: 将任务性能奖励与正则化项相结合,以稳定层次搜索并加快收敛速度。
- Empirical Validation: 在两个标准 LLM 路由基准上展示出一致的提升,超越了如 Mixture‑of‑Experts 路由和静态模型集成等强基线。
- Open‑Source Release: 提供可直接运行的实现(https://github.com/zihangtian/HAPS),以促进可复现性和下游采用。
方法论
-
候选池: 准备一组异构的 LLM(例如 GPT‑2‑medium、LLaMA‑7B、T5‑XL),每个模型都有可配置的超参数空间(学习率、提示风格、温度等)。
-
高层路由器: 一个轻量级分类器接受任务描述(或输入提示),输出在候选架构上的概率分布。
-
低层路由器: 在高层路由器选定的架构基础上,该组件从该模型定义的空间中选择具体的参数配置。
-
参数生成网络: 一个神经网络,根据任务嵌入生成一组合理的超参数向量。两个路由器都查询 PGN,使它们能够共享学习到的“好参数”模式。
-
训练目标: 系统使用奖励增强的损失进行优化:
- 任务奖励: 负对数似然或任务特定度量(例如 BLEU、准确率)。
- 正则化奖励: 鼓励所选架构的多样性,并惩罚过于复杂的参数设置。
对路由器和 PGN 进行梯度更新,离散路由决策使用 REINFORCE‑style 估计器。
Results & Findings
| 基准 | 基线(静态最佳模型) | 先前路由(Mixture‑of‑Experts) | HAPS |
|---|---|---|---|
| GLUE‑SuperGLUE | 84.2% | 86.7% | 88.5% |
| OpenAI‑Eval(多轮问答) | 71.3 | 73.9 | 76.4 |
- 性能提升: HAPS 将平均任务得分提升 2–3%,超过现有最强路由方法。
- 参数效率: 选定的配置通常使用 更小 的学习率和 更低 的温度设置,表明联合搜索避免了过拟合。
- 速度: 由于高级路由器能够快速缩小架构池,推理延迟与使用单一模型相当,尽管底层进行了搜索。
- 消融实验: 移除 PGN 或奖励增强项会导致性能下降约 1.5%,验证了它们的重要性。
实际影响
- 在生产环境中的动态模型选择: 服务可以自动将用户查询路由到成本效益最高的 LLM(例如,对简单意图使用较小模型,对复杂推理使用较大模型),无需人工调优。
- 降低工程开销: 团队不再需要为架构基准测试和超参数搜索维护独立的流水线;HAPS 在统一的数据驱动循环中同时处理两者。
- 成本节约: 通过选择满足性能目标的最小规模模型,可以在保持质量的同时降低云计算开支。
- 即插即用集成: 开源代码提供了流行框架(Hugging Face Transformers、DeepSpeed)的适配器,便于将 HAPS 嵌入现有推理堆栈。
- 可扩展性: 层次化设计可以扩展为硬件感知路由(GPU/TPU 选择)或隐私约束(设备端 vs. 云端模型)。
局限性与未来工作
- 候选池的可扩展性: 当前实验使用的是一组适度数量的 LLM;扩展到数十个模型可能会增加高级路由器的训练复杂度。
- 超参数的离散搜索: 虽然 PGN 生成连续向量,但最终的参数选择仍是离散的,这可能会错过细粒度的最优设置。
- 任务泛化: HAPS 在基准套件上进行评估;其在全新领域(例如代码生成)的泛化能力仍需检验。
- 未来方向: 作者建议探索多目标路由(平衡延迟、内存和准确率),引入基于强化学习的探索以应对更大的模型目录,并将框架扩展到多模态模型。
作者
- Zihang Tian
- Rui Li
- Jingsen Zhang
- Xiaohe Bo
- Wei Huo
- Xu Chen
论文信息
- arXiv ID: 2601.05903v1
- Categories: cs.CL
- Published: 2026年1月9日
- PDF: 下载 PDF