[Paper] Model Context Protocol (MCP) 工具描述有异味！致力于通过增强的 MCP 工具描述提升 AI 代理效率

发布: 3天前 (2026年2月17日 GMT+8 00:10)

9 分钟阅读

原文: arXiv

Source: arXiv - 2602.14878v1

（请提供您希望翻译的正文内容，我将为您翻译成简体中文。）

概述

本文调查了在新兴的 Model Context Protocol (MCP) 生态系统中一个出乎意料常见的问题：用于告知大型语言模型（LLM）代理如何使用外部工具的自然语言描述往往写得很差，或称为“有味道”。通过对数百种工具系统性地测量这些“味道”，并测试修复它们对代理性能的影响，作者揭示了描述质量、成功率和执行成本之间的明确权衡。

关键贡献

对MCP工具描述的实证调查 – 分析了来自103个MCP服务器的856个工具，这是同类研究中规模最大的。
六要素评估标准 – 定义了一套具体的描述要素（目的、输入、输出、约束、示例和错误处理）以及用于检测“异味”的评分系统。
自动化FM扫描器 – 构建了一个基于语言模型的工具，能够实时标记缺失或模糊的组件。
影响评估 – 证明了增强描述可将整体任务成功率提升中位数 5.85 pp，部分目标完成率提升 15.12 %，但也会导致执行步骤增加约 67 %。
组件消融研究 – 表明六个组件的紧凑子集能够在保持大部分可靠性的同时，减少令牌使用量和成本。
开源成果 – 发布了扫描器、带注释的数据集以及用于可重复性的脚本。

方法论

数据收集 – 爬取公共 MCP 服务器（例如 OpenAI Functions、LangChain、LlamaIndex），收集工具定义及其自然语言描述。
评分标准设计 – 综合先前关于 API 文档和提示工程的研究，确定六个关键描述要素。为每个要素给出二元“存在/缺失”评分，累计得到 0‑6 的质量评分。
异味检测 – 训练一个小型语言模型（GPT‑3.5）对每条描述按评分标准进行分类，将评分标准转化为自动化扫描器。
实验设置 – 在 30 项基准任务（问答、数据检索、代码生成）上使用基线 FM‑agent（GPT‑4）先对原始工具集进行测试，再对“增强”工具集（手动或通过扫描器补全缺失要素）进行测试。
指标 – 衡量 任务成功率（二元）、部分目标完成度（子任务完成的百分比）、执行步骤数（工具调用次数）以及 令牌成本（货币成本的代理指标）。
消融实验 – 系统性地从增强描述中移除单个要素，以观察哪些要素最具性价比。

结果与发现

方面	原始描述	增强描述
气味出现率	97.1 % 的工具至少有 ≥1 个气味	0 %（按构造）
目的明确性	56 % 未说明目的	100 % 明确
任务成功率	基线中位数 71 %	中位数提升 5.85 pp（≈77 %）
部分目标完成度	平均 58 %	提升 15.12 %
执行步骤	平均每任务 8 次调用	增加 67.46 %（≈13 次调用）
退化案例	—	16.67 % 的任务表现更差
标记开销	每次交互约 1.2 k 标记	最多 2.0 k 标记（取决于组件）
表现最佳的紧凑组合	—	4‑组件子集（目的 + 输入 + 输出 + 示例）保留 >90 % 的成功提升，同时将标记使用量降低约 30 %

要点： 添加缺失的描述部分通常有助于代理做出更好的工具选择决策，但额外的文本会占用更多 LLM 的上下文窗口，导致运行时间更长、成本更高。并非所有任务都受益——有些任务变慢甚至准确率下降，表明 上下文敏感性。

实际意义

对于 MCP 平台所有者 – 将提供的扫描器集成到 CI 流水线中，以在发布新工具前强制执行描述质量。这可以以最小的人工投入提升整体生态系统的可靠性。
对于构建代理的开发者 – 在设计自定义工具集时，优先考虑清晰的目的说明和具体的输入/输出模式；这些在成功率与代币成本的 ROI 上收益最大。
注重成本的提示工程师 – 利用消融实验的洞察，裁剪描述至最具影响力的组件，在保持性能的同时控制代币预算（对付费 API 使用至关重要）。
工具市场 – 采用“徽章”系统（例如 “MCP‑Gold”），标示工具的描述通过了评估标准，帮助用户快速识别高质量集成。
自动化调试 – 扫描器可以标记出模糊的描述，这类描述常导致 “未找到工具” 或 “参数不匹配” 错误，从而减少在代理开发过程中的反复试错时间。

限制与未来工作

模型依赖 – 实验使用了 GPT‑4；在上下文窗口更小的或开源的 LLM 上，结果可能会有所不同。
静态基准 – 这 30 项任务覆盖了常见场景，但可能无法反映特定领域的工作负载（例如科学计算、机器人技术）。
人工增强偏差 – 人工编写的增强可能无意中偏向某些表述风格；未来工作应探索完全自动化的改写方法。
工具动态演进 – MCP 服务器可以在运行时添加或修改工具；需要持续监控并进行增量扫描。
用户研究 – 本文未评估开发者对额外描述开销的感受；定性反馈可为工具编写界面的 UI/UX 改进提供指导。

Bottom line: 干净、结构良好的工具描述是提升 LLM‑agent 效能的低成本突破口，但开发者必须在额外上下文成本与性能提升之间取得平衡。作者提供了诊断扫描器和可操作的指南，帮助 MCP 社区朝着更可靠、成本更高效的 AI 代理迈进。

作者

Mohammed Mehedi Hasan
Hao Li
Gopi Krishnan Rajbahadur
Bram Adams
Ahmed E. Hassan

论文信息

arXiv ID: 2602.14878v1
类别: cs.SE, cs.ET
出版日期: 2026年2月16日
PDF: 下载 PDF

[Paper] Model Context Protocol (MCP) 工具描述有异味！致力于通过增强的 MCP 工具描述提升 AI 代理效率

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 软件密集型 Asset Administration Shells：分类与用例

[论文] 注意差距：评估 LLMs 用于高级恶意软件包检测 vs. 细粒度指示器识别

[Paper] Meflex: 多智能体支撑系统用于通过非线性商业计划撰写进行创业创意迭代

【论文】Req2Road：用于SDV测试制品生成和车载执行的GenAI流水线