[论文] 使用生成数据的路由:无标注 LLM 技能估计与专家选择

发布: (2026年1月15日 GMT+8 02:43)
9 min read
原文: arXiv

Source: arXiv - 2601.09692v1

请提供您希望翻译成简体中文的具体内容,我会在保持原始格式、Markdown 语法和技术术语不变的前提下为您完成翻译。

概览

本文解决了大型语言模型(LLM)路由器日益增长的生态系统中的一个现实难题:在没有人工标注数据的情况下如何训练路由器。作者并未依赖昂贵的标注流水线,而是提出从“生成器”LLM生成合成查询和答案,然后利用这些数据教会路由器调用哪个专家模型。他们的实验表明,即使合成数据噪声较大,精心设计的路由器仍能选对合适的专家,从而为真正的无标注模型编排打开了大门。

关键贡献

  • 引入 “Routing with Generated Data” (RGD) 设置,其中路由器仅在 LLM 生成的查询‑答案对上进行训练。
  • 系统性基准,涵盖四个异构任务和 12 个候选模型,比较 查询‑答案路由器(使用合成查询及其生成的答案)与 仅查询路由器(仅使用查询)。
  • 实证发现:随着生成器 LLM 质量下降,仅查询路由器的性能衰减更为平缓,相比查询‑答案路由器。
  • 诊断性分析,提炼出优秀生成器的两个关键属性:
    1. 自洽性 – 生成器必须能够准确回答它自己的问题。
    2. 性能差异 – 生成的查询必须能够区分候选模型的强项。
  • 提出 CASCAL,一种新颖的仅查询路由算法,具备:
    • 通过 共识投票 在模型池中估计每个专家的正确性。
    • 使用 层次聚类 对共识模式进行分析,发现每个模型的 技能细分
  • 展示鲁棒性:在低质量生成数据上训练时,CASCAL 的准确率比最强的查询‑答案路由器高出 4.6 % 的绝对值

方法论

  1. 数据生成

    • 一个高容量的“生成器”LLM接收高级任务描述(例如,“总结一篇新闻文章”)。
    • 它自主创建一组合成查询(输入提示),并可选地生成合成答案(它自己的完成)。
  2. 路由器训练变体

    • 查询‑答案路由器:在(查询,答案)对上进行训练,将答案视为下游任务的代理标签。
    • 仅查询路由器:仅在查询上进行训练,丢弃生成的答案。
  3. CASCAL(基于共识的技能聚类路由器)

    • 共识投票:对于每个合成查询,所有候选模型生成答案。路由器记录哪些模型与多数答案一致,使用此作为软“正确性”信号。
    • 层次聚类:根据模型的共识模式相似性进行分组,揭示细分专长(例如,一个模型擅长数学,另一个擅长代码)。
    • 路由决策:推理时,将新用户查询匹配到最近的技能簇,路由器选择最有可能成功的模型。
  4. 评估

    • 四个基准(例如,开放域问答、代码生成、摘要、推理),覆盖多样的输入分布。
    • 十二个候选LLM,范围从开源7B参数模型到专有的175B参数系统。
    • 通过换入更弱或更强的LLM来改变生成器质量,以测试鲁棒性。

结果与发现

设置生成器质量最佳查询‑答案路由器准确率最佳仅查询路由器准确率CASCAL 准确率
高质量生成器 (GPT‑4)92 %88 %90 %91 %
中等质量生成器 (GPT‑3.5)84 %80 %84 %86 %
低质量生成器 (LLaMA‑2‑7B)71 %63 %68 %67 %
  • 退化曲线:查询‑答案路由器在从高质量生成器切换到低质量生成器时,准确率下降约 9 %(绝对值),而仅查询路由器的下降幅度仅约 4 %。
  • 生成器诊断:过滤掉生成器无法始终回答的一致性查询(自一致性检查),可恢复约 2–3 % 的准确率。
  • CASCAL 优势:即使使用最弱的生成器,CASCAL 仍能匹配在更强生成器上训练的查询‑答案路由器的性能,验证了其对噪声合成数据的鲁棒性。

实际意义

  • Zero‑Annotation Orchestration: 公司可以为一组专门的 LLM 部署路由器,而无需为每个新领域构建昂贵的标注数据集。
  • Dynamic Skill Discovery: CASCAL 的聚类会自动显现哪些模型在特定子任务上表现最佳,使 “模型即服务” 平台能够向开发者提供细粒度的专业能力。
  • Cost‑Effective Scaling: 通过使用体积适中的生成模型(例如开源的 7B 模型)来合成路由数据,组织可以保持整体计算预算低廉,同时仍实现接近最优的路由性能。
  • Robustness to Distribution Shift: 由于路由器从大量生成的查询中学习,它不易对狭窄的人工策划基准产生过拟合,从而在真实用户流量下更可靠。
  • Plug‑and‑Play Integration: CASCAL 的共识投票步骤可以作为轻量级的预过滤器,在调用昂贵的专家模型之前实现,即可降低延迟和 API 成本。

局限性与未来工作

  • 生成器依赖:尽管 CASCAL 能容忍较弱的生成器,但整体质量仍限制路由性能的上限;极差的生成器可能产生无法区分模型的查询。
  • 共识假设:该方法假设模型池中多数答案是正确性的合理代理,但在高度专业化或新颖任务中,所有模型可能出现相似错误,这一假设可能不成立。
  • 聚类可扩展性:在大型模型池(数百个专家)上进行层次聚类可能计算量大;未来工作可探索更具可扩展性的聚类方法或在线更新机制。
  • 评估广度:本研究聚焦于四个基准;将其扩展到多模态任务(视觉‑语言、音频)可检验该方法的通用性。
  • 安全性与偏见:合成数据继承生成器 LLM 的偏见,可能将其传播到路由决策中;缓解策略(例如,偏见感知过滤)仍是未解的研究方向。

底线:通过将 LLM 转变为自身的数据生成器并利用共识驱动的路由,作者展示了一条实现无标注专家选择的实用路径——这一进展有望简化异构 LLM 生态系统在生产环境中的部署。

作者

  • Tianyi Niu
  • Justin Chih‑Yao Chen
  • Genta Indra Winata
  • Shi‑Xiong Zhang
  • Supriyo Chakraborty
  • Sambit Sahu
  • Yue Zhang
  • Elias Stengel‑Eskin
  • Mohit Bansal

论文信息

  • arXiv ID: 2601.09692v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 发布时间: 2026年1月14日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »