我让 Opus 4.6 和 Codex 5.2 构建同样的东西，结果让我惊讶。

发布: 2个月前 (2026年2月7日 GMT+8 07:47)

7 分钟阅读

原文: Dev.to

Source: Dev.to

大多数人现在都在使用 Opus 4.6 和 Codex 5.2

在它们发布后稍稍超过 24 小时，我终于能够亲自进行测试。难道我即将需要改变我的工作流程吗？

我之前为自己的 Discord 服务器构建了一个应用程序，用于为 RAG 系统摄取内容，同时通过自动分配角色来帮助进行 moderation。这是一个有趣的副项目。

在我重新投入使用这些新模型并开始玩耍之前，我想先测试一下，看看应该使用哪一个。我选择了一个 可视化我的数据 的测试，所以我们可以把它视为 前端为主、仅有少量逻辑实现的项目。我稍后会为后端类别的其他项目进行单独测试。

在本次测试中，我测量 两个主要指标：速度和 准确性。让我们开始吧。

连接 – 对于两个模型，我都确保它们能够连接到我的 Xano.com 工作区并读取数据。（还有关于 MCP 的其他讨论，但模型就是通过这种方式与平台通信的。）
环境 –
- 我使用 Cursor 来测试 Codex。
- 我使用 Claude (Claude 3 Opus 4.6) 来测试 Opus。
（关键是，这些是不同的环境，幕后处理方式也足够不同，可能会导致结果偏差，但我将在未来进行其他测试。）
提示 – 两个模型收到了相同的提示：
请从 Xano（MCP）中的工作区 11 获取数据；我希望你创建一个所有数据相互关联的可视化表示。为此，我想让你展示一个等距视图，显示表、数据和函数之间的所有关系；这包括中间件、认证系统、任务以及其他任何内容。请遍历整个应用程序，评估所有函数、表、端点、任务等，以创建一张地图。
1. 扫描必要的 .XS 文件。使用 MCP 来协助应用流程和数据存储。
2. 创建一个包含 CSS 和 JS 的 HTML 页面，以等距视图展示应用的全景，并提供一种可视化方式来显示所有内容是如何相互连接的。它应略带视频游戏风格，但强调可读性和可访问性。
3. 为了提升可读性：查询所有数据，并将其持久化为本地文件。
你的提示可能会有所不同，这将 100 % 影响本实验的结果。不过，我想测试模型从我提供的信息中进行推断的能力。

并排构建

在两者都按下 Enter 键后，我看到 Codex 迅速完成任务，而 Claude 则时不时卡住几分钟。决策过程的差异并不大，但它们执行的速度明显不同。

开发速度冠军： Codex

Opus 4.6 output

我先查看了 Opus 4.6 的输出。虽然并不令人惊讶，但当我打开页面时它正常工作、可访问，并且与我脑中构想的视觉模型相匹配。

Codex 5.2: Empty build

这不在预料之中。我只听说过 Codex 的好评，所以看到什么也没有加载感到失望。

我不一定要怪 Codex，但在给定任务的约束下，它的表现超出了预期，假设它应该从服务器端提供内容。因为我想保持本地运行，我把错误代码复制到 Cursor 中，像个合格的 vibe‑coder 那样处理，然后刷新页面。

Codex 5.2: Fixed build

可视化效果笨拙，我几乎不明白自己在看什么。整个用户体验需要额外的提示才能让它变得可用。

开发准确性获胜者： Opus

最终，我对结果并不太失望：Claude 一直给人一种表现稍微……的感觉

原文在此截断；其余摘要可稍后补充。

更适合我在前端上

考虑到环境差异，Codex 仍然渴望在 CLI 中进行实地测试，以配合一些正式的后端开发。

但我惊讶吗？是的。 我真的期待两者之间会有相似的结果。

看起来在可预见的时间内，我不需要大幅更改我的工作流，因为 Claude 确实擅长读懂暗示、推断用户意图并交付成果。

但这也引发了关于模型人格以及哪种更适合你的构建风格的讨论：interpretive vs. executional（解释型 vs. 执行型）。

基于此以及我的构建风格，我在本次测试中将 Opus 4.6 as the winner 评为胜者。Codex 速度快，但准确性和结果仍是决定性因素。

如果你想让我特别测试什么，留下评论吧。更多测试即将推出！