[Paper] ToolOrchestra：通过高效模型和工具编排提升智能

发布: 2个月前 (2025年11月27日 GMT+8 02:59)

3 分钟阅读

原文: arXiv

Source: arXiv - 2511.21689v1

概览

大型语言模型是强大的通用模型，但解决诸如人类终极考试（Humanity’s Last Exam，HLE）等深层且复杂的问题仍然在概念上具有挑战性且计算成本高昂。我们展示了通过小型编排器管理其他模型和各种工具，既可以提升智能的上限，又能提高解决困难代理任务的效率。我们提出 ToolOrchestra，一种训练小型编排器以协同智能工具的方法。ToolOrchestra 明确使用包含结果、效率和用户偏好感知的奖励进行强化学习。借助 ToolOrchestra，我们生成了 Orchestrator，一个 8B 参数的模型，在成本更低的情况下实现了比以往工具使用代理更高的准确率，并且在给定查询时能够对使用哪些工具符合用户偏好。

在 HLE 上，Orchestrator 获得 37.1% 的得分，优于 GPT‑5（35.1%），且效率提升 2.5 倍。在 tau2‑Bench 和 FRAMES 上，Orchestrator 以约 30% 的成本大幅超越 GPT‑5。大量分析表明，Orchestrator 在多项指标下实现了性能与成本的最佳平衡，并且能够稳健地泛化到未见过的工具。这些结果表明，使用轻量级编排模型组合多样化工具比现有方法更高效、更有效，为实用且可扩展的工具增强推理系统铺平了道路。

作者

Hongjin Su
Shizhe Diao
Ximing Lu
Mingjie Liu
Jiacheng Xu
Xin Dong
Yonggan Fu
Peter Belcak
Hanrong Ye
Hongxu Yin
Yi Dong
Evelina Bakhturina
Tao Yu
Yejin Choi
Jan Kautz
Pavlo Molchanov

论文信息

arXiv ID: 2511.21689v1
发布日期: 2025 年 11 月 27 日
PDF: Download PDF

[Paper] ToolOrchestra：通过高效模型和工具编排提升智能

概览

作者

分类

论文信息

相关文章

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] MegaChat：合成波斯语问答数据集用于高质量销售聊天机器人评估

[Paper] 通过结构化知识发现方法提升语言模型生成的可解释性

[Paper] 每个 Token 都很重要：在大型语言模型中推广 16M 超长上下文