[Paper] AdaSearch：在大语言模型中通过强化学习平衡参数化知识与搜索

发布: 1个月前 (2025年12月19日 GMT+8 02:50)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.16883v1

概述

本文介绍了 AdaSearch，一种强化学习（RL）框架，教会大语言模型（LLM）何时使用外部搜索引擎，何时依赖其自身的内部（参数化）知识。通过将“解决问题”步骤与“决定搜索”步骤分离，AdaSearch 减少了不必要的 API 调用，降低了成本，并缓解了引入噪声或恶意信息的风险——同时仍在知识密集型任务上保持强大的性能。

Key Contributions

自我知识意识度量：一种基于 F1 的决策度量，用于量化现有搜索增强代理在已经知道答案时的识别能力。
两阶段强化学习（RL）公式：将问题求解（生成）与调用搜索的二元决策解耦，实现更清晰的信用分配和更容易的奖励设计。
结果驱动奖励：奖励基于最终答案质量，而不是惩罚工具调用次数，防止代理通过简单地避免搜索来操纵系统。
可解释性：显式的“是否搜索”决策会被记录并可供检查，这在金融或医疗等高风险领域尤为关键。
实证收益：在多个 LLM 系列（如 LLaMA、OPT）及不同规模上，AdaSearch 将不必要的搜索调用减少最高达 40%，同时匹配或超出基线任务准确率。

方法论

基线代理 – 作者从已有的搜索增强型 LLM 代理（例如 Search‑R1）开始，这些代理交替进行生成和工具调用。
自我知识度量 – 对每个查询，他们计算模型内部答案（未使用搜索）与真实答案之间的 F1 分数。高 F1 表明模型已经知道答案，暗示搜索调用是多余的。
两阶段强化学习
- 阶段 1（问题求解）：LLM 生成一个好像拥有完整知识的答案，使用标准的监督微调或来自人类反馈的强化学习（RLHF）。
- 阶段 2（搜索决策）：一个轻量级策略网络观察生成的答案、查询以及置信度信号（例如 token 级别的熵），决定 search（调用外部引擎）或 no‑search（不搜索）。
奖励设计 – 在最终答案生成后（无论是仅来自内部生成还是在检索文档后增强），系统根据答案正确性（例如精确匹配、BLEU 或领域特定指标）获得奖励。无需对调用次数设置显式惩罚；RL 算法会学习仅在提升奖励时才进行搜索调用。
训练循环 – 两个组件共同训练，但使用独立的损失项，使得搜索决策策略保持可解释性（它输出可检查的二元概率）。

Results & Findings

模型 / 大小	基线 (Search‑R1)	AdaSearch	% ↓ 不必要的调用	任务准确率 (Δ)
LLaMA‑7B	0.68 F1, 12 calls/q	0.71 F1, 7 calls/q	≈ 40 %	+0.3 %
OPT‑13B	0.73 F1, 15 calls/q	0.75 F1, 9 calls/q	≈ 40 %	+0.2 %
LLaMA‑33B	0.78 F1, 18 calls/q	0.80 F1, 11 calls/q	≈ 39 %	+0.1 %

更高的自我认知意识：AdaSearch 的决策策略能够在 85 % 的情况下正确识别“已知”查询，而之前的代理约为 60 %。
成本降低：更少的 API 调用直接转化为更低的延迟和金钱成本，尤其是对付费搜索服务而言。
鲁棒性：在对抗性环境（噪声或恶意搜索结果）下，AdaSearch 的选择性调用能够防止答案质量下降，而基线代理会出现明显的性能下降。
可解释性：随时间变化的二元决策可视化展示了清晰、易于人类理解的模式（例如，“仅在置信度 < 0.6 时进行搜索”）。

实际意义

企业聊天机器人：公司可以集成 AdaSearch，以保持运营成本低，同时为真正未知的查询（例如最新法规）检索最新数据。
开发者工具：IDE 助手（代码补全、文档查找）可以避免不必要的网络请求，降低延迟并保护用户隐私。
高风险问答：在金融或医疗领域，明确的“是否搜索”标记可以记录审计日志，满足合规要求。
可扩展部署：由于搜索决策模块轻量化，可部署在边缘设备或作为位于任何大型语言模型前的微服务，使该方法与模型无关。
降低不良内容暴露：通过仅在必要时进行调用，系统最小化了恶意或受版权保护内容注入的攻击面。

局限性与未来工作

依赖良好的置信度信号：决策策略的表现取决于内部置信度估计的质量；校准不佳的模型仍可能出现过度或不足搜索。
训练数据偏差：强化学习奖励与所使用的基准数据集绑定；真实世界的分布（例如快速变化的新闻）可能需要持续微调。
单一搜索引擎假设：当前设置假设使用一个同质的搜索工具；若要扩展到异构来源（数据库、API），需要额外的策略复杂度。
未来方向：作者建议探索元学习，以在新领域中即时适应搜索决策策略，整合更丰富的不确定性量化（如贝叶斯大语言模型），并研究多步搜索策略，使代理能够迭代细化查询。

作者

Tzu-Han Lin
Wei-Lin Chen
Chen-An Li
Hung-yi Lee
Yun-Nung Chen
Yu Meng

论文信息

arXiv ID: 2512.16883v1
Categories: cs.CL
发布时间: 2025年12月18日
PDF: 下载 PDF

[Paper] AdaSearch：在大语言模型中通过强化学习平衡参数化知识与搜索

概述

Key Contributions

方法论

Results & Findings

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 当推理遇到其法则

[论文] ShareChat：野外聊天机器人对话数据集

[Paper] DEER：一个全面且可靠的深度研究专家报告基准

[Paper] Bangla MedER：Multi-BERT Ensemble Approach用于Bangla医学实体识别