[Paper] Model Context Protocol (MCP) 工具描述有异味!致力于通过增强的 MCP 工具描述提升 AI 代理效率
发布: (2026年2月17日 GMT+8 00:10)
9 分钟阅读
原文: arXiv
Source: arXiv - 2602.14878v1
(请提供您希望翻译的正文内容,我将为您翻译成简体中文。)
概述
本文调查了在新兴的 Model Context Protocol (MCP) 生态系统中一个出乎意料常见的问题:用于告知大型语言模型(LLM)代理如何使用外部工具的自然语言描述往往写得很差,或称为“有味道”。通过对数百种工具系统性地测量这些“味道”,并测试修复它们对代理性能的影响,作者揭示了描述质量、成功率和执行成本之间的明确权衡。
关键贡献
- 对MCP工具描述的实证调查 – 分析了来自103个MCP服务器的856个工具,这是同类研究中规模最大的。
- 六要素评估标准 – 定义了一套具体的描述要素(目的、输入、输出、约束、示例和错误处理)以及用于检测“异味”的评分系统。
- 自动化FM扫描器 – 构建了一个基于语言模型的工具,能够实时标记缺失或模糊的组件。
- 影响评估 – 证明了增强描述可将整体任务成功率提升中位数 5.85 pp,部分目标完成率提升 15.12 %,但也会导致执行步骤增加约 67 %。
- 组件消融研究 – 表明六个组件的紧凑子集能够在保持大部分可靠性的同时,减少令牌使用量和成本。
- 开源成果 – 发布了扫描器、带注释的数据集以及用于可重复性的脚本。
方法论
- 数据收集 – 爬取公共 MCP 服务器(例如 OpenAI Functions、LangChain、LlamaIndex),收集工具定义及其自然语言描述。
- 评分标准设计 – 综合先前关于 API 文档和提示工程的研究,确定六个关键描述要素。为每个要素给出二元“存在/缺失”评分,累计得到 0‑6 的质量评分。
- 异味检测 – 训练一个小型语言模型(GPT‑3.5)对每条描述按评分标准进行分类,将评分标准转化为自动化扫描器。
- 实验设置 – 在 30 项基准任务(问答、数据检索、代码生成)上使用基线 FM‑agent(GPT‑4)先对原始工具集进行测试,再对“增强”工具集(手动或通过扫描器补全缺失要素)进行测试。
- 指标 – 衡量 任务成功率(二元)、部分目标完成度(子任务完成的百分比)、执行步骤数(工具调用次数)以及 令牌成本(货币成本的代理指标)。
- 消融实验 – 系统性地从增强描述中移除单个要素,以观察哪些要素最具性价比。
结果与发现
| 方面 | 原始描述 | 增强描述 |
|---|---|---|
| 气味出现率 | 97.1 % 的工具至少有 ≥1 个气味 | 0 %(按构造) |
| 目的明确性 | 56 % 未说明目的 | 100 % 明确 |
| 任务成功率 | 基线中位数 71 % | 中位数提升 5.85 pp(≈77 %) |
| 部分目标完成度 | 平均 58 % | 提升 15.12 % |
| 执行步骤 | 平均每任务 8 次调用 | 增加 67.46 %(≈13 次调用) |
| 退化案例 | — | 16.67 % 的任务表现更差 |
| 标记开销 | 每次交互约 1.2 k 标记 | 最多 2.0 k 标记(取决于组件) |
| 表现最佳的紧凑组合 | — | 4‑组件子集(目的 + 输入 + 输出 + 示例)保留 >90 % 的成功提升,同时将标记使用量降低约 30 % |
要点: 添加缺失的描述部分通常有助于代理做出更好的工具选择决策,但额外的文本会占用更多 LLM 的上下文窗口,导致运行时间更长、成本更高。并非所有任务都受益——有些任务变慢甚至准确率下降,表明 上下文敏感性。
实际意义
- 对于 MCP 平台所有者 – 将提供的扫描器集成到 CI 流水线中,以在发布新工具前强制执行描述质量。这可以以最小的人工投入提升整体生态系统的可靠性。
- 对于构建代理的开发者 – 在设计自定义工具集时,优先考虑清晰的目的说明和具体的输入/输出模式;这些在成功率与代币成本的 ROI 上收益最大。
- 注重成本的提示工程师 – 利用消融实验的洞察,裁剪描述至最具影响力的组件,在保持性能的同时控制代币预算(对付费 API 使用至关重要)。
- 工具市场 – 采用“徽章”系统(例如 “MCP‑Gold”),标示工具的描述通过了评估标准,帮助用户快速识别高质量集成。
- 自动化调试 – 扫描器可以标记出模糊的描述,这类描述常导致 “未找到工具” 或 “参数不匹配” 错误,从而减少在代理开发过程中的反复试错时间。
限制与未来工作
- 模型依赖 – 实验使用了 GPT‑4;在上下文窗口更小的或开源的 LLM 上,结果可能会有所不同。
- 静态基准 – 这 30 项任务覆盖了常见场景,但可能无法反映特定领域的工作负载(例如科学计算、机器人技术)。
- 人工增强偏差 – 人工编写的增强可能无意中偏向某些表述风格;未来工作应探索完全自动化的改写方法。
- 工具动态演进 – MCP 服务器可以在运行时添加或修改工具;需要持续监控并进行增量扫描。
- 用户研究 – 本文未评估开发者对额外描述开销的感受;定性反馈可为工具编写界面的 UI/UX 改进提供指导。
Bottom line: 干净、结构良好的工具描述是提升 LLM‑agent 效能的低成本突破口,但开发者必须在额外上下文成本与性能提升之间取得平衡。作者提供了诊断扫描器和可操作的指南,帮助 MCP 社区朝着更可靠、成本更高效的 AI 代理迈进。
作者
- Mohammed Mehedi Hasan
- Hao Li
- Gopi Krishnan Rajbahadur
- Bram Adams
- Ahmed E. Hassan
论文信息
- arXiv ID: 2602.14878v1
- 类别: cs.SE, cs.ET
- 出版日期: 2026年2月16日
- PDF: 下载 PDF