[Paper] Model Context Protocol (MCP) 工具描述有异味!致力于通过增强的 MCP 工具描述提升 AI 代理效率

发布: (2026年2月17日 GMT+8 00:10)
9 分钟阅读
原文: arXiv

Source: arXiv - 2602.14878v1

(请提供您希望翻译的正文内容,我将为您翻译成简体中文。)

概述

本文调查了在新兴的 Model Context Protocol (MCP) 生态系统中一个出乎意料常见的问题:用于告知大型语言模型(LLM)代理如何使用外部工具的自然语言描述往往写得很差,或称为“有味道”。通过对数百种工具系统性地测量这些“味道”,并测试修复它们对代理性能的影响,作者揭示了描述质量、成功率和执行成本之间的明确权衡。

关键贡献

  • 对MCP工具描述的实证调查 – 分析了来自103个MCP服务器的856个工具,这是同类研究中规模最大的。
  • 六要素评估标准 – 定义了一套具体的描述要素(目的、输入、输出、约束、示例和错误处理)以及用于检测“异味”的评分系统。
  • 自动化FM扫描器 – 构建了一个基于语言模型的工具,能够实时标记缺失或模糊的组件。
  • 影响评估 – 证明了增强描述可将整体任务成功率提升中位数 5.85 pp,部分目标完成率提升 15.12 %,但也会导致执行步骤增加约 67 %
  • 组件消融研究 – 表明六个组件的紧凑子集能够在保持大部分可靠性的同时,减少令牌使用量和成本。
  • 开源成果 – 发布了扫描器、带注释的数据集以及用于可重复性的脚本。

方法论

  1. 数据收集 – 爬取公共 MCP 服务器(例如 OpenAI Functions、LangChain、LlamaIndex),收集工具定义及其自然语言描述。
  2. 评分标准设计 – 综合先前关于 API 文档和提示工程的研究,确定六个关键描述要素。为每个要素给出二元“存在/缺失”评分,累计得到 0‑6 的质量评分。
  3. 异味检测 – 训练一个小型语言模型(GPT‑3.5)对每条描述按评分标准进行分类,将评分标准转化为自动化扫描器。
  4. 实验设置 – 在 30 项基准任务(问答、数据检索、代码生成)上使用基线 FM‑agent(GPT‑4)先对原始工具集进行测试,再对“增强”工具集(手动或通过扫描器补全缺失要素)进行测试。
  5. 指标 – 衡量 任务成功率(二元)、部分目标完成度(子任务完成的百分比)、执行步骤数(工具调用次数)以及 令牌成本(货币成本的代理指标)。
  6. 消融实验 – 系统性地从增强描述中移除单个要素,以观察哪些要素最具性价比。

结果与发现

方面原始描述增强描述
气味出现率97.1 % 的工具至少有 ≥1 个气味0 %(按构造)
目的明确性56 % 未说明目的100 % 明确
任务成功率基线中位数 71 %中位数提升 5.85 pp(≈77 %)
部分目标完成度平均 58 %提升 15.12 %
执行步骤平均每任务 8 次调用增加 67.46 %(≈13 次调用)
退化案例16.67 % 的任务表现更差
标记开销每次交互约 1.2 k 标记最多 2.0 k 标记(取决于组件)
表现最佳的紧凑组合4‑组件子集(目的 + 输入 + 输出 + 示例)保留 >90 % 的成功提升,同时将标记使用量降低约 30 %

要点: 添加缺失的描述部分通常有助于代理做出更好的工具选择决策,但额外的文本会占用更多 LLM 的上下文窗口,导致运行时间更长、成本更高。并非所有任务都受益——有些任务变慢甚至准确率下降,表明 上下文敏感性

实际意义

  • 对于 MCP 平台所有者 – 将提供的扫描器集成到 CI 流水线中,以在发布新工具前强制执行描述质量。这可以以最小的人工投入提升整体生态系统的可靠性。
  • 对于构建代理的开发者 – 在设计自定义工具集时,优先考虑清晰的目的说明和具体的输入/输出模式;这些在成功率与代币成本的 ROI 上收益最大。
  • 注重成本的提示工程师 – 利用消融实验的洞察,裁剪描述至最具影响力的组件,在保持性能的同时控制代币预算(对付费 API 使用至关重要)。
  • 工具市场 – 采用“徽章”系统(例如 “MCP‑Gold”),标示工具的描述通过了评估标准,帮助用户快速识别高质量集成。
  • 自动化调试 – 扫描器可以标记出模糊的描述,这类描述常导致 “未找到工具” 或 “参数不匹配” 错误,从而减少在代理开发过程中的反复试错时间。

限制与未来工作

  • 模型依赖 – 实验使用了 GPT‑4;在上下文窗口更小的或开源的 LLM 上,结果可能会有所不同。
  • 静态基准 – 这 30 项任务覆盖了常见场景,但可能无法反映特定领域的工作负载(例如科学计算、机器人技术)。
  • 人工增强偏差 – 人工编写的增强可能无意中偏向某些表述风格;未来工作应探索完全自动化的改写方法。
  • 工具动态演进 – MCP 服务器可以在运行时添加或修改工具;需要持续监控并进行增量扫描。
  • 用户研究 – 本文未评估开发者对额外描述开销的感受;定性反馈可为工具编写界面的 UI/UX 改进提供指导。

Bottom line: 干净、结构良好的工具描述是提升 LLM‑agent 效能的低成本突破口,但开发者必须在额外上下文成本与性能提升之间取得平衡。作者提供了诊断扫描器和可操作的指南,帮助 MCP 社区朝着更可靠、成本更高效的 AI 代理迈进。

作者

  • Mohammed Mehedi Hasan
  • Hao Li
  • Gopi Krishnan Rajbahadur
  • Bram Adams
  • Ahmed E. Hassan

论文信息

  • arXiv ID: 2602.14878v1
  • 类别: cs.SE, cs.ET
  • 出版日期: 2026年2月16日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »