[Paper] HAPS：层次化 LLM 路由与联合架构及参数搜索

发布: 1个月前 (2026年1月10日 GMT+8 00:22)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.05903v1

Overview

本文提出了 HAPS，一种层次化路由系统，能够自动为给定任务挑选最佳的大语言模型（LLM）以及其最优超参数。通过将架构选择与参数调优相结合，HAPS 在准确率上超越了仅在模型家族之间进行选择的先前路由方法。

关键贡献

Joint Architecture‑Parameter Search: 引入一个两级路由器，首先选择 LLM 架构，然后微调其参数，而不是将这些决策分开处理。
Parameter Generation Network (PGN): 一个共享网络，为两个路由器生成候选参数设置，实现架构搜索与参数搜索之间的知识转移。
Reward‑Augmented Training Objective: 将任务性能奖励与正则化项相结合，以稳定层次搜索并加快收敛速度。
Empirical Validation: 在两个标准 LLM 路由基准上展示出一致的提升，超越了如 Mixture‑of‑Experts 路由和静态模型集成等强基线。
Open‑Source Release: 提供可直接运行的实现（https://github.com/zihangtian/HAPS），以促进可复现性和下游采用。

方法论

候选池： 准备一组异构的 LLM（例如 GPT‑2‑medium、LLaMA‑7B、T5‑XL），每个模型都有可配置的超参数空间（学习率、提示风格、温度等）。
高层路由器： 一个轻量级分类器接受任务描述（或输入提示），输出在候选架构上的概率分布。
低层路由器： 在高层路由器选定的架构基础上，该组件从该模型定义的空间中选择具体的参数配置。
参数生成网络： 一个神经网络，根据任务嵌入生成一组合理的超参数向量。两个路由器都查询 PGN，使它们能够共享学习到的“好参数”模式。
训练目标： 系统使用奖励增强的损失进行优化：
- 任务奖励： 负对数似然或任务特定度量（例如 BLEU、准确率）。
- 正则化奖励： 鼓励所选架构的多样性，并惩罚过于复杂的参数设置。
对路由器和 PGN 进行梯度更新，离散路由决策使用 REINFORCE‑style 估计器。

Results & Findings

基准	基线（静态最佳模型）	先前路由（Mixture‑of‑Experts）	HAPS
GLUE‑SuperGLUE	84.2%	86.7%	88.5%
OpenAI‑Eval（多轮问答）	71.3	73.9	76.4

性能提升： HAPS 将平均任务得分提升 2–3%，超过现有最强路由方法。
参数效率： 选定的配置通常使用更小的学习率和更低的温度设置，表明联合搜索避免了过拟合。
速度： 由于高级路由器能够快速缩小架构池，推理延迟与使用单一模型相当，尽管底层进行了搜索。
消融实验： 移除 PGN 或奖励增强项会导致性能下降约 1.5%，验证了它们的重要性。

实际影响

在生产环境中的动态模型选择： 服务可以自动将用户查询路由到成本效益最高的 LLM（例如，对简单意图使用较小模型，对复杂推理使用较大模型），无需人工调优。
降低工程开销： 团队不再需要为架构基准测试和超参数搜索维护独立的流水线；HAPS 在统一的数据驱动循环中同时处理两者。
成本节约： 通过选择满足性能目标的最小规模模型，可以在保持质量的同时降低云计算开支。
即插即用集成： 开源代码提供了流行框架（Hugging Face Transformers、DeepSpeed）的适配器，便于将 HAPS 嵌入现有推理堆栈。
可扩展性： 层次化设计可以扩展为硬件感知路由（GPU/TPU 选择）或隐私约束（设备端 vs. 云端模型）。

局限性与未来工作

候选池的可扩展性： 当前实验使用的是一组适度数量的 LLM；扩展到数十个模型可能会增加高级路由器的训练复杂度。
超参数的离散搜索： 虽然 PGN 生成连续向量，但最终的参数选择仍是离散的，这可能会错过细粒度的最优设置。
任务泛化： HAPS 在基准套件上进行评估；其在全新领域（例如代码生成）的泛化能力仍需检验。
未来方向： 作者建议探索多目标路由（平衡延迟、内存和准确率），引入基于强化学习的探索以应对更大的模型目录，并将框架扩展到多模态模型。

作者

Zihang Tian
Rui Li
Jingsen Zhang
Xiaohe Bo
Wei Huo
Xu Chen

论文信息

arXiv ID: 2601.05903v1
Categories: cs.CL
Published: 2026年1月9日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

大型语言模型（LLMs）由于预训练数据、模型架构和解码行为的差异而展现出互补的优势。推理…

[Paper] 链接证据：面向深度搜索代理的鲁棒强化学习与引用感知评分奖励

强化学习（RL）已成为提升基于LLM的深度搜索代理的关键技术。然而，现有方法主要依赖于二元……

[Paper] 不要破坏缓存：对 Prompt Caching 在长时程 Agentic 任务的评估

近期在 Large Language Model (LLM) 代理方面的进展使得能够执行需要大量 tool calling 的复杂多轮 agentic 任务，其中对话可以…

[Paper] 思维的分子结构：绘制长Chain-of-Thought推理的拓扑

大型语言模型（LLMs）往往无法从人类或非 Long CoT LLM 的模仿中学习到有效的长链式思考（Long CoT）推理。为了理解 t...