Tool Harness Meta 没告诉你的事
Source: Dev.to
Meta 刚刚发布了 Muse Spark,这是他们一年以来的首个大型模型发布。基准测试显示它可以与 Claude Opus 4.6 和 GPT 5.4 竞争,但这并不是最有趣的部分。
Simon Willison 在尝试 meta.ai 接口时发现了一件值得注意的事。他提出了一个简单的问题:**你可以使用哪些工具?**答案显示了 16 种工具,而 Meta 并没有隐藏它们。
没有人提到的工具栈
以下是 Meta 静悄悄发布的内容:
浏览器工具 –
browser.search,browser.open,browser.find
通过未公开的搜索引擎进行网页搜索、页面加载以及对内容的模式匹配。基础但必不可少。Meta 内容搜索 –
meta_1p.content_search
可以对 Instagram、Threads 和 Facebook 帖子进行语义搜索——但仅限用户可访问、且自2025‑01‑01之后创建的内容。参数包括author_ids,key_celebrities,commented_by_user_ids,liked_by_user_ids。代码解释器 –
container.python_execution
在沙箱中运行 Python 3.9,配备 pandas、numpy、matplotlib、plotly、scikit‑learn、PyMuPDF、Pillow、OpenCV。文件持久化在/mnt/data/。这与 ChatGPT 和 Claude 使用的模式相同。网页制品 –
container.create_web_artifact
创建 HTML + JavaScript 文件,以沙箱 iframe 形式渲染。将kind设置为html用于应用,或svg用于图形。视觉定位 –
container.visual_grounding
分析图像,识别对象,并返回边界框、点或计数。它本质上是作为工具的 “Segment Anything”——比如让它统计浣熊胡须的数量,它会输出每根胡须的坐标。子代理生成 –
subagents.spawn_agent
将任务委派给独立的子代理。Simon 几个月前记录的模式现在已经成为内置工具。
为什么这很重要
该模型在 Artificial Analysis 基准上得分 52,仅次于 Gemini 3.1 Pro、GPT‑5.4 和 Claude Opus 4.6。Meta 声称它使用的计算资源比 Llama 4 Maverick 少一个数量级以上。
真正的故事在于各大 AI 公司工具架构的趋同:
- Python 执行沙箱
- 网页制品渲染
- 文件操作原语(view、insert、
str_replace) - 基于沙箱的视觉分析
- 子代理委派
Meta 的实现加入了一个转折:与其社交图谱的紧密集成,形成了 Claude 和 GPT 无法触及的护城河。
开放权重的疑问
Alexandr Wang 暗示未来版本可能开源。Meta 曾在 Llama 时率先实现开放权重,随后在 Llama 4 时转为闭源,或许会再次开放。
如果 Muse Spark 的权重发布,工具套件可能会成为参考实现,让开发者能够在本地复现 meta.ai 体验。目前,它仅作为私有 API 预览供特定用户使用——你租用的是工具,而不是拥有它们。
结论
模型竞争固然吸引眼球,但 工具竞争更为关键。
Meta 的 16‑工具套件——代码解释器、视觉定位、子代理生成以及社交图谱搜索——是一套复杂的生产力栈,而不仅仅是聊天机器人。Claude、GPT 和 Gemini 也提供类似功能,因此比较的焦点从纯模型性能转向工具生态的丰富程度。
构建出最佳工具——而不仅是最聪明模型——的公司将最终胜出。