[论文] 使用生成数据的路由:无标注 LLM 技能估计与专家选择
发布: (2026年1月15日 GMT+8 02:43)
9 min read
原文: arXiv
Source: arXiv - 2601.09692v1
请提供您希望翻译成简体中文的具体内容,我会在保持原始格式、Markdown 语法和技术术语不变的前提下为您完成翻译。
概览
本文解决了大型语言模型(LLM)路由器日益增长的生态系统中的一个现实难题:在没有人工标注数据的情况下如何训练路由器。作者并未依赖昂贵的标注流水线,而是提出从“生成器”LLM生成合成查询和答案,然后利用这些数据教会路由器调用哪个专家模型。他们的实验表明,即使合成数据噪声较大,精心设计的路由器仍能选对合适的专家,从而为真正的无标注模型编排打开了大门。
关键贡献
- 引入 “Routing with Generated Data” (RGD) 设置,其中路由器仅在 LLM 生成的查询‑答案对上进行训练。
- 系统性基准,涵盖四个异构任务和 12 个候选模型,比较 查询‑答案路由器(使用合成查询及其生成的答案)与 仅查询路由器(仅使用查询)。
- 实证发现:随着生成器 LLM 质量下降,仅查询路由器的性能衰减更为平缓,相比查询‑答案路由器。
- 诊断性分析,提炼出优秀生成器的两个关键属性:
- 自洽性 – 生成器必须能够准确回答它自己的问题。
- 性能差异 – 生成的查询必须能够区分候选模型的强项。
- 提出 CASCAL,一种新颖的仅查询路由算法,具备:
- 通过 共识投票 在模型池中估计每个专家的正确性。
- 使用 层次聚类 对共识模式进行分析,发现每个模型的 技能细分。
- 展示鲁棒性:在低质量生成数据上训练时,CASCAL 的准确率比最强的查询‑答案路由器高出 4.6 % 的绝对值。
方法论
-
数据生成
- 一个高容量的“生成器”LLM接收高级任务描述(例如,“总结一篇新闻文章”)。
- 它自主创建一组合成查询(输入提示),并可选地生成合成答案(它自己的完成)。
-
路由器训练变体
- 查询‑答案路由器:在(查询,答案)对上进行训练,将答案视为下游任务的代理标签。
- 仅查询路由器:仅在查询上进行训练,丢弃生成的答案。
-
CASCAL(基于共识的技能聚类路由器)
- 共识投票:对于每个合成查询,所有候选模型生成答案。路由器记录哪些模型与多数答案一致,使用此作为软“正确性”信号。
- 层次聚类:根据模型的共识模式相似性进行分组,揭示细分专长(例如,一个模型擅长数学,另一个擅长代码)。
- 路由决策:推理时,将新用户查询匹配到最近的技能簇,路由器选择最有可能成功的模型。
-
评估
- 四个基准(例如,开放域问答、代码生成、摘要、推理),覆盖多样的输入分布。
- 十二个候选LLM,范围从开源7B参数模型到专有的175B参数系统。
- 通过换入更弱或更强的LLM来改变生成器质量,以测试鲁棒性。
结果与发现
| 设置 | 生成器质量 | 最佳查询‑答案路由器准确率 | 最佳仅查询路由器准确率 | CASCAL 准确率 |
|---|---|---|---|---|
| 高质量生成器 (GPT‑4) | 92 % | 88 % | 90 % | 91 % |
| 中等质量生成器 (GPT‑3.5) | 84 % | 80 % | 84 % | 86 % |
| 低质量生成器 (LLaMA‑2‑7B) | 71 % | 63 % | 68 % | 67 % |
- 退化曲线:查询‑答案路由器在从高质量生成器切换到低质量生成器时,准确率下降约 9 %(绝对值),而仅查询路由器的下降幅度仅约 4 %。
- 生成器诊断:过滤掉生成器无法始终回答的一致性查询(自一致性检查),可恢复约 2–3 % 的准确率。
- CASCAL 优势:即使使用最弱的生成器,CASCAL 仍能匹配在更强生成器上训练的查询‑答案路由器的性能,验证了其对噪声合成数据的鲁棒性。
实际意义
- Zero‑Annotation Orchestration: 公司可以为一组专门的 LLM 部署路由器,而无需为每个新领域构建昂贵的标注数据集。
- Dynamic Skill Discovery: CASCAL 的聚类会自动显现哪些模型在特定子任务上表现最佳,使 “模型即服务” 平台能够向开发者提供细粒度的专业能力。
- Cost‑Effective Scaling: 通过使用体积适中的生成模型(例如开源的 7B 模型)来合成路由数据,组织可以保持整体计算预算低廉,同时仍实现接近最优的路由性能。
- Robustness to Distribution Shift: 由于路由器从大量生成的查询中学习,它不易对狭窄的人工策划基准产生过拟合,从而在真实用户流量下更可靠。
- Plug‑and‑Play Integration: CASCAL 的共识投票步骤可以作为轻量级的预过滤器,在调用昂贵的专家模型之前实现,即可降低延迟和 API 成本。
局限性与未来工作
- 生成器依赖:尽管 CASCAL 能容忍较弱的生成器,但整体质量仍限制路由性能的上限;极差的生成器可能产生无法区分模型的查询。
- 共识假设:该方法假设模型池中多数答案是正确性的合理代理,但在高度专业化或新颖任务中,所有模型可能出现相似错误,这一假设可能不成立。
- 聚类可扩展性:在大型模型池(数百个专家)上进行层次聚类可能计算量大;未来工作可探索更具可扩展性的聚类方法或在线更新机制。
- 评估广度:本研究聚焦于四个基准;将其扩展到多模态任务(视觉‑语言、音频)可检验该方法的通用性。
- 安全性与偏见:合成数据继承生成器 LLM 的偏见,可能将其传播到路由决策中;缓解策略(例如,偏见感知过滤)仍是未解的研究方向。
底线:通过将 LLM 转变为自身的数据生成器并利用共识驱动的路由,作者展示了一条实现无标注专家选择的实用路径——这一进展有望简化异构 LLM 生态系统在生产环境中的部署。
作者
- Tianyi Niu
- Justin Chih‑Yao Chen
- Genta Indra Winata
- Shi‑Xiong Zhang
- Supriyo Chakraborty
- Sambit Sahu
- Yue Zhang
- Elias Stengel‑Eskin
- Mohit Bansal
论文信息
- arXiv ID: 2601.09692v1
- 分类: cs.CL, cs.AI, cs.LG
- 发布时间: 2026年1月14日
- PDF: 下载 PDF