[Paper] Tool Calling 在语言模型中是线性可读且可引导的

发布: (2026年5月9日 GMT+8 00:47)
10 分钟阅读
原文: arXiv

Source: arXiv - 2605.07990v1

请提供您希望翻译的具体文本内容(例如摘要、引言或全文的某一部分),我将按照要求保留原始链接、格式和技术术语,将其翻译成简体中文。谢谢!

概览

本文揭示了现代指令微调语言模型的一个出人意料的简单特性:在模型的隐藏状态中,选择调用哪个外部工具是线性可读且可操控的。通过探测和微调内部激活,作者能够以近乎完美的准确率翻转模型的工具选择,甚至还能预测何时即将出现工具调用错误。这一洞见为提升 AI 代理的可靠性和可控性打开了新途径。

关键贡献

  • 工具身份的线性读取 – 对隐藏激活进行单一线性投影即可以 69‑82 % 的准确率恢复模型意图使用的工具,即使在未调优的基础模型中也是如此。
  • 工具选择的线性引导 – 将两个工具激活中心之间的均值差向量加入模型的隐藏状态,可在 77‑100 % 的情况下强制模型选择目标工具(参数 ≥ 4 B 的模型中 ≥ 93 %)。
  • 错误预测信号 – top‑1 与 top‑2 工具 logits 之间的差距可预测失败:差距小的查询产生错误工具调用的可能性高出 14‑21 倍。
  • 效应定位 – 激活补丁定位到少数中后层注意力头以及输出层行中的单一方向,该方向驱动工具 token,表明该现象不仅是主题转移。
  • 跨模型与跨工具的一致性 – 线性读取在 12 种指令微调模型(Gemma 3、Qwen 3/2.5、Llama 3.1),参数规模从 270 M 到 27 B,以及 14 种航空领域工具上均有效。
  • 对预训练与指令微调的洞察 – 基础模型在生成前已编码正确的工具(高余弦相似度),而指令微调则将该潜在表征与实际输出 token 对齐。

方法论

  1. 工具‑调用基准 – 构建了一个固定‑菜单、单轮提示集合,其中每个查询都可以由若干 JSON‑schema 工具之一回答(例如 “search flight”、 “book seat”)。
  2. 探测 – 在模型处理提示时收集隐藏状态(所有层)。训练一个简单的线性分类器(逻辑回归)来预测这些激活对应的意图工具。
  3. 通过激活注入进行引导 – 计算每个工具的平均激活向量(即“工具中心向量”)。要将工具 A 强制切换到工具 B,在选定层的隐藏状态上加上差值 Δ = mean_B – mean_A,然后让模型继续生成。
  4. 激活修补 – 用“正确”运行中的注意力头输出替换单个注意力头的输出,并测量对工具选择的影响。
  5. 误差间隙分析 – 记录前两名工具 token 之间的 logits 差距;差距小的查询被标记为高风险。
  6. 跨模型验证 – 将相同的探测和引导向量应用于 12 种不同规模和架构的模型,以检验鲁棒性。

所有步骤均依赖标准的 Transformer 内部结构(隐藏状态、注意力头、输出 logits),且不需要梯度更新——仅需前向传播和简单的向量运算。

Results & Findings

Model (size)Linear readout accuracy (tool identity)Steering success (name‑only prompt)
Gemma 3 12B71 %94 %
Gemma 3 27B78 %97 %
Llama 3.1 4B‑14B69‑82 %93‑100 %
Qwen 3 4B‑27B70‑84 %95‑100 %
  • 单向控制:向与目标工具首个 token 对应的输出层行对齐的单位向量注入,即可实现 > 93 % 的 steering,证实大部分效果集中在一个方向上。
  • Attention‑head 热点:只需对 5‑8 个中后层的 head 进行 patch,即可复现 steering 效果,暗示存在一个紧凑的 “tool‑selection circuit”。
  • 错误预测:当 top‑1/top‑2 logits 差距落在最低四分位时,错误调用工具的概率是最高四分位的 14‑21 倍。
  • 基础模型 vs. 调优模型:未调优的基础模型能够编码正确的工具(高余弦相似度),但很少实际生成它(生成准确率仅 2‑10 %)。指令调优使潜在表示与输出 token 对齐,显著提升实际工具使用率。

总体而言,研究表明工具选择在模型内部 显式表示,并且可以通过最小的开销进行读取、编辑和监控。

Practical Implications

  • Debug‑friendly agents – 开发者可以添加一个轻量级的“看门狗”,读取隐藏状态以在执行前验证所选工具,提前捕获不匹配并防止代价高昂的错误(例如,将邮件发送给错误的收件人)。
  • Runtime steering – 通过注入适当的 Δ 向量,系统可以在不重新提示或微调模型的情况下动态地将请求重新路由到更安全或更合适的工具。对合规性有用(强制使用隐私保护工具),或用于 A/B 测试不同的工具实现。
  • Safety layers – Logit‑gap 指标提供了一种低成本、即时的工具调用置信度分数,从而可以实现条件回退(例如,当差距较小时向用户请求澄清)。
  • Model‑agnostic tooling – 由于该现象在各种架构和规模上均成立,库可以提供通用 API(read_tool, steer_tool, tool_confidence),适用于任何现代 LLM 后端。
  • Efficient fine‑tuning – 与其对整个模型进行 RLHF 来使用工具,开发者可以仅微调已识别的少量注意力头,或添加一个线性适配器,将工具中心向量直接映射到输出 token,从而节省计算和数据。
  • Pre‑training diagnostics – 基础模型已经编码工具身份的事实表明,预训练数据质量(是否包含类似工具的模式)会影响下游工具的可靠性,为未来 LLM 的数据集策划提供指导。

限制与未来工作

  • 单轮、固定菜单设置 – 实验聚焦于一次性提示和静态工具列表。多轮对话和动态工具发现仍然脆弱,需要更深入的研究。
  • 工具范围 – 仅评估了航空领域的 JSON 工具;尚不清楚这些发现如何推广到更复杂或层次化的工具套件(例如代码执行、数据库查询)。
  • 引导副作用 – 虽然工具名称可以干净地切换,但下游的 JSON 参数仅因提示中包含模式而自动适配新模式。更模糊的情况可能导致参数格式错误。
  • 可解释性深度 – 已识别的注意力头是一个有前景的切入点,但仍缺乏关于“工具电路”如何与指令微调交互的完整机制模型。
  • 对抗性提示的鲁棒性 – 线性引导技术可能被滥用,以迫使模型进行恶意工具调用;防护措施和检测机制仍是开放的研究方向。

未来的工作可以将探测/引导框架扩展到多轮代理,探索自动化的工具选择纠正循环,并研究如何在预训练期间嵌入类似的线性控制信号,以生成本质上更安全的工具调用模型。

作者

  • Zekun Wu
  • Ze Wang
  • Seonglae Cho
  • Yufei Yang
  • Adriano Koshiyama
  • Sahan Bulathwela
  • Maria Perez-Ortiz

论文信息

  • arXiv ID: 2605.07990v1
  • 分类: cs.CL, cs.AI, cs.LG, cs.SE
  • 出版日期: 2026年5月8日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »