为 Umbraco CMS 开发者 MCP 选择合适的 LLM：快速成本与性能分析

发布: 0个月前 (2026年1月11日 GMT+8 21:35)

11 分钟阅读

原文: Dev.to

Source: Dev.to

为什么效率很重要

当我们在去年底超越概念验证阶段时，出现了以下问题：

对于 Claude Pro 或 ChatGPT Plus 这类订阅制服务，低效往往被隐藏。你支付固定费用，却看不到每次操作的真实成本。
当账单没有变化时，人们很容易忽视效率——直到你达到使用上限或在工作流中途被限速。

三个关键因素

速度 = 摩擦 – 一个需要 40 秒而不是 20 秒的工作流不仅仅是慢；开发者会失去专注、频繁切换上下文，甚至完全放弃该工具。
更多 token = 更多计算 –
- 更高的延迟 – 每个 token 都会增加处理时间。
- 更快的额度消耗 – 订阅和 API 都有 token 上限。
- 复合低效 – 浪费的提示会在每一次操作中成倍放大。
隐藏成本显现 –
- 扩大规模 → 订阅上限被触及，限速生效。
- 多人使用 → 对单个开发者有效的方案在团队中会变得昂贵。
- 转为 API 计费 → 按 token 付费模式会立即暴露所有低效之处。

$3 与 $13 每 1 000 次操作的差距，就是可持续工具与昂贵实验之间的区别。

高效的提示和能够用更少 token 推理的强大模型，会在每一次操作中累积节省。

计算可持续性

更高效的模型在使用更少的 token 和更短的时间完成任务时，拥有 更小的环境足迹。当你运行成千上万的 AI 操作时，模型快 30 % 不仅仅是节省几秒钟——更是对资源使用的负责任态度。

使用 Claude Agent SDK 获得可见性

我们最近将 Claude Agent SDK 集成到我们的评估测试套件（类似于网站的验收测试）中。这让我们能够看到 AI 驱动工作流实际发生的情况。

对于每次测试运行，我们现在会跟踪：

指标	含义
执行时间	工作流耗时
对话轮次	与 LLM 的来回交流次数
令牌使用量	输入 + 输出令牌的消耗量
成本	每次操作实际花费的美元金额

这些数据彻底改变了我们对不同模型在 Umbraco MCP 上表现的认识。

提示工程：刻意优化

我们并不是随意向模型抛出提示并寄望于最佳结果。我们的评估提示经过刻意优化，针对 更小、更快的模型。

这是什么样子

明确的任务列表 – 使用编号步骤，而不是开放式指令。
清晰的变量跟踪 – “保存文件夹 ID 以备后用”，而不是假设模型会自行推断。
具体的工具指引 – “使用第 3 步的图像 ID，而不是文件夹 ID”，以防混淆。
定义的成功标准 – 完成后输出精确的字符串。

我们通过提供 结构化、明确无歧义的指令，降低模型的认知负担，即使是较小的模型也能可靠地遵循。

权衡： 更冗长的提示 → 在不同模型层级间实现一致的结果。

事实证明——当提示清晰时，Umbraco MCP 即使在更小、更快的模型上也能表现良好。

测试场景

我们的测试套件仍然有限——我们正处于早期阶段。把它看作一次有趣的实验，而不是严格的基准测试。话虽如此，我们设计了两个具有代表性的场景：

基本的 3 步操作 – 创建一个数据类型文件夹，验证其存在，删除它。
10 步媒体生命周期 – 创建文件夹，上传图片，更新元数据，检查引用，将其移动到回收站，恢复，永久删除图片，删除文件夹。

复杂的工作流测试如下所示：

const TEST_PROMPT = `Complete these tasks in order:
1. Get the media root to see the current structure
2. Create a media folder called "_Test Media Folder" at the root
   - IMPORTANT: Save the folder ID returned from this call for later use
3. Create a test image media item INSIDE the new folder with name "_Test Image"
   - Use the folder ID from step 2 as the parentId
   - IMPORTANT: Save the image ID returned from this call
4. Update the IMAGE to change its name to "_Test Image Updated"
   - Use the image ID from step 3, NOT the folder ID
5. Check if the IMAGE is referenced anywhere
6. Move the IMAGE to the recycle bin
   - Use the image ID from step 3, NOT the folder ID
7. Restore the IMAGE from the recycle bin
8. Delete the IMAGE permanently
9. Delete the FOLDER
10. When complete, say 'The media lifecycle workflow has completed successfully'`;

请注意提示的明确性——我们告诉模型要做什么、要跟踪哪些 ID，以及要避免的混淆。这正是让小模型也能成功完成任务的关键。

Claude模型结果

我们在五个Claude模型上多次运行每个工作流：

Model	平均时间	平均回合数	平均费用
Claude 3.5 Haiku (baseline)	12.4 s	4.0	$0.017
Claude Haiku 4.5	8.6 s	3.7	$0.019
Claude Sonnet 4	13.9 s	4.0	$0.025
Claude Sonnet 4.5	11.8 s	3.0	$0.021
Claude Opus 4.5	26.4 s	8.0	$0.123

关键发现： Haiku 4.5 完成简单任务的速度比 Haiku 3.5 约快40 %，且成本相当。

Takeaway

通过 优化提示、跟踪指标 和 选择合适的模型，我们可以让 AI‑驱动的 Umbraco MCP 既快速又 成本‑效益高，同时朝着更 可持续 的计算足迹迈进。

模型性能摘要

模型	时间	回合数	成本
Haiku 3.5	31.1 s	11	$0.029
Haiku 4.5	21.5 s	11	$0.036
Sonnet 4	37.9 s	11	$0.081
Sonnet 4.5	40.4 s	11	$0.084
Opus 4.5	42.5 s	11	$0.134

关键发现： 所有模型均在恰好 11 回合 完成了复杂工作流——任务的复杂度使回合数保持一致。执行时间和成本却有显著差异。

重要提示

结果基于 少量测试运行——统计意义不足。
提示词针对较小模型进行了大量优化；较少明确的提示可能更有利于大型模型。
这是一项探索性分析，并非最终建议。

Umbraco MCP 工作负载的建议

对于我们特定的 Umbraco MCP 工作负载以及结构良好的提示，Claude Haiku 4.5 (claude‑haiku‑4‑5‑20251001) 实现了：

执行速度提升 31 %，相较于 Haiku 3.5 在复杂工作流中的表现。
比 Sonnet 和 Opus 模型快 44‑49 %。
在所有测试中拥有 最佳性价比。

为什么更大的模型未能脱颖而出

相同的回合数： 无论使用哪种模型，复杂工作流都需要 11 回合。
每回合更高的延迟： 更大的模型在每次交互中引入了更多延迟。
成本提升 2‑4 倍： 但在速度或质量上没有相应的提升。

对于具有明确提示的结构化 MCP 工具调用任务来说，更大模型的额外推理能力并未转化为更好的性能。任务定义明确，工具已有文档，Haiku 能高效完成。

每 100 次操作的费用

模型	约费用
Haiku 3.5	~$2.90
Haiku 4.5	~$3.60
Sonnet 4 / 4.5	~$8.00
Opus 4.5	~$13.40

示例：每月 1,000 次 AI 辅助操作

Haiku 4.5: ≈ $36 / 月
Opus 4.5: ≈ $134 / 月

这几乎是 慢速性能成本的 4 倍。

更新的默认模型

基于此分析，Umbraco MCP 的默认评估模型现为 Claude Haiku 4.5。

构建基于 MCP 的工作流的实用指南

从 Haiku 4.5 开始 – 快速、强大且具成本效益。
投入提示工程 – 明确、结构良好的提示可减少对更大模型的依赖。让提示承担部分推理工作。
升级前先测量 – 不要假设更大的模型对你的使用场景更好。
跟踪你的指标 – 使用 Agent SDK（或类似工具）监控实际成本和性能。

我们优化之旅的下一步

在评估套件中添加更复杂的多实体工作流。
测试边缘情况和错误恢复场景。
继续优化提示，以在更小的模型上实现最大效率。

核心要点

Umbraco MCP 在提示明确的情况下，即使在更小、更快的模型上也能表现良好。您并不需要最昂贵的 LLM 来有效管理您的 CMS——清晰的提示配合精心设计的工具才是关键。

Analysis date: January 2025
Tooling: Claude Agent SDK against a local Umbraco 17 instance.
Note: Results may vary with network latency, Umbraco configuration, and workflow complexity.