[Paper] AdaSearch:在大语言模型中通过强化学习平衡参数化知识与搜索

发布: (2025年12月19日 GMT+8 02:50)
7 min read
原文: arXiv

Source: arXiv - 2512.16883v1

概述

本文介绍了 AdaSearch,一种强化学习(RL)框架,教会大语言模型(LLM)何时使用外部搜索引擎,何时依赖其自身的内部(参数化)知识。通过将“解决问题”步骤与“决定搜索”步骤分离,AdaSearch 减少了不必要的 API 调用,降低了成本,并缓解了引入噪声或恶意信息的风险——同时仍在知识密集型任务上保持强大的性能。

Key Contributions

  • 自我知识意识度量:一种基于 F1 的决策度量,用于量化现有搜索增强代理在已经知道答案时的识别能力。
  • 两阶段强化学习(RL)公式:将问题求解(生成)与调用搜索的二元决策解耦,实现更清晰的信用分配和更容易的奖励设计。
  • 结果驱动奖励:奖励基于最终答案质量,而不是惩罚工具调用次数,防止代理通过简单地避免搜索来操纵系统。
  • 可解释性:显式的“是否搜索”决策会被记录并可供检查,这在金融或医疗等高风险领域尤为关键。
  • 实证收益:在多个 LLM 系列(如 LLaMA、OPT)及不同规模上,AdaSearch 将不必要的搜索调用减少最高达 40%,同时匹配或超出基线任务准确率。

方法论

  1. 基线代理 – 作者从已有的搜索增强型 LLM 代理(例如 Search‑R1)开始,这些代理交替进行生成和工具调用。
  2. 自我知识度量 – 对每个查询,他们计算模型内部答案(未使用搜索)与真实答案之间的 F1 分数。高 F1 表明模型已经知道答案,暗示搜索调用是多余的。
  3. 两阶段强化学习
    • 阶段 1(问题求解):LLM 生成一个好像拥有完整知识的答案,使用标准的监督微调或来自人类反馈的强化学习(RLHF)。
    • 阶段 2(搜索决策):一个轻量级策略网络观察生成的答案、查询以及置信度信号(例如 token 级别的熵),决定 search(调用外部引擎)或 no‑search(不搜索)。
  4. 奖励设计 – 在最终答案生成后(无论是仅来自内部生成还是在检索文档后增强),系统根据答案正确性(例如精确匹配、BLEU 或领域特定指标)获得奖励。无需对调用次数设置显式惩罚;RL 算法会学习仅在提升奖励时才进行搜索调用。
  5. 训练循环 – 两个组件共同训练,但使用独立的损失项,使得搜索决策策略保持可解释性(它输出可检查的二元概率)。

Results & Findings

模型 / 大小基线 (Search‑R1)AdaSearch% ↓ 不必要的调用任务准确率 (Δ)
LLaMA‑7B0.68 F1, 12 calls/q0.71 F1, 7 calls/q≈ 40 %+0.3 %
OPT‑13B0.73 F1, 15 calls/q0.75 F1, 9 calls/q≈ 40 %+0.2 %
LLaMA‑33B0.78 F1, 18 calls/q0.80 F1, 11 calls/q≈ 39 %+0.1 %
  • 更高的自我认知意识:AdaSearch 的决策策略能够在 85 % 的情况下正确识别“已知”查询,而之前的代理约为 60 %。
  • 成本降低:更少的 API 调用直接转化为更低的延迟和金钱成本,尤其是对付费搜索服务而言。
  • 鲁棒性:在对抗性环境(噪声或恶意搜索结果)下,AdaSearch 的选择性调用能够防止答案质量下降,而基线代理会出现明显的性能下降。
  • 可解释性:随时间变化的二元决策可视化展示了清晰、易于人类理解的模式(例如,“仅在置信度 < 0.6 时进行搜索”)。

实际意义

  • 企业聊天机器人:公司可以集成 AdaSearch,以保持运营成本低,同时为真正未知的查询(例如最新法规)检索最新数据。
  • 开发者工具:IDE 助手(代码补全、文档查找)可以避免不必要的网络请求,降低延迟并保护用户隐私。
  • 高风险问答:在金融或医疗领域,明确的“是否搜索”标记可以记录审计日志,满足合规要求。
  • 可扩展部署:由于搜索决策模块轻量化,可部署在边缘设备或作为位于任何大型语言模型前的微服务,使该方法与模型无关。
  • 降低不良内容暴露:通过仅在必要时进行调用,系统最小化了恶意或受版权保护内容注入的攻击面。

局限性与未来工作

  • 依赖良好的置信度信号:决策策略的表现取决于内部置信度估计的质量;校准不佳的模型仍可能出现过度或不足搜索。
  • 训练数据偏差:强化学习奖励与所使用的基准数据集绑定;真实世界的分布(例如快速变化的新闻)可能需要持续微调。
  • 单一搜索引擎假设:当前设置假设使用一个同质的搜索工具;若要扩展到异构来源(数据库、API),需要额外的策略复杂度。
  • 未来方向:作者建议探索元学习,以在新领域中即时适应搜索决策策略,整合更丰富的不确定性量化(如贝叶斯大语言模型),并研究多步搜索策略,使代理能够迭代细化查询。

作者

  • Tzu-Han Lin
  • Wei-Lin Chen
  • Chen-An Li
  • Hung-yi Lee
  • Yun-Nung Chen
  • Yu Meng

论文信息

  • arXiv ID: 2512.16883v1
  • Categories: cs.CL
  • 发布时间: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »