我让 Opus 4.6 和 Codex 5.2 构建同样的东西,结果让我惊讶。

发布: (2026年2月7日 GMT+8 07:47)
7 分钟阅读
原文: Dev.to

Source: Dev.to

大多数人现在都在使用 Opus 4.6 和 Codex 5.2

在它们发布后稍稍超过 24 小时,我终于能够亲自进行测试。难道我即将需要改变我的工作流程吗?

我之前为自己的 Discord 服务器构建了一个应用程序,用于为 RAG 系统摄取内容,同时通过自动分配角色来帮助进行 moderation。这是一个有趣的副项目。

在我重新投入使用这些新模型并开始玩耍之前,我想先测试一下,看看应该使用哪一个。我选择了一个 可视化我的数据 的测试,所以我们可以把它视为 前端为主、仅有少量逻辑实现的项目。我稍后会为 后端 类别的其他项目进行单独测试。

在本次测试中,我测量 两个主要指标速度准确性。让我们开始吧。

设置测试

  1. 连接 – 对于两个模型,我都确保它们能够连接到我的 Xano.com 工作区并读取数据。(还有关于 MCP 的其他讨论,但模型就是通过这种方式与平台通信的。)

  2. 环境

    • 我使用 Cursor 来测试 Codex。
    • 我使用 Claude (Claude 3 Opus 4.6) 来测试 Opus。

    (关键是,这些是不同的环境,幕后处理方式也足够不同,可能会导致结果偏差,但我将在未来进行其他测试。)

  3. 提示 – 两个模型收到了相同的提示:

    请从 Xano(MCP)中的工作区 11 获取数据;我希望你创建一个所有数据相互关联的可视化表示。为此,我想让你展示一个等距视图,显示表、数据和函数之间的所有关系;这包括中间件、认证系统、任务以及其他任何内容。请遍历整个应用程序,评估所有函数、表、端点、任务等,以创建一张地图。

    1. 扫描必要的 .XS 文件。使用 MCP 来协助应用流程和数据存储。
    2. 创建一个包含 CSS 和 JS 的 HTML 页面,以等距视图展示应用的全景,并提供一种可视化方式来显示所有内容是如何相互连接的。它应略带视频游戏风格,但强调可读性和可访问性。
    3. 为了提升可读性:查询所有数据,并将其持久化为本地文件。

    你的提示可能会有所不同,这将 100 % 影响本实验的结果。不过,我想测试模型从我提供的信息中进行推断的能力。

我们冲向赛场!

并排构建

在两者都按下 Enter 键后,我看到 Codex 迅速完成任务,而 Claude 则时不时卡住几分钟。决策过程的差异并不大,但它们执行的速度明显不同。

  • Codex 用时 5 分钟 55 秒 完成。
  • Claude (Opus 4.6)8 分钟 左右时才结束。

开发速度冠军: Codex

期待的输出

Opus 4.6

Opus 4.6 output

我先查看了 Opus 4.6 的输出。虽然并不令人惊讶,但当我打开页面时它正常工作、可访问,并且与我脑中构想的视觉模型相匹配。

  • 自动缩放、拖拽、点击节点、点击空白 → 侧边栏打开并显示连通性信息。
  • 虽然没有被震撼到,但我完全预料到 Opus 4.6 能做到出色。标准得以保持。

Codex 5.2

空白构建

Codex 5.2: Empty build

在预料之中。我只听说过 Codex 的好评,所以看到什么也没有加载感到失望。

我不一定要怪 Codex,但在给定任务的约束下,它的表现超出了预期,假设它应该从服务器端提供内容。因为我想保持本地运行,我把错误代码复制到 Cursor 中,像个合格的 vibe‑coder 那样处理,然后刷新页面。

修复后的构建

Codex 5.2: Fixed build

可视化效果笨拙,我几乎不明白自己在看什么。整个用户体验需要额外的提示才能让它变得可用。

开发准确性获胜者: Opus

摘要

最终,我对结果并不太失望:Claude 一直给人一种表现稍微……的感觉

原文在此截断;其余摘要可稍后补充。

更适合我在 前端

考虑到环境差异,Codex 仍然渴望在 CLI 中进行实地测试,以配合一些正式的后端开发。

但我惊讶吗?是的。 我真的期待两者之间会有相似的结果。

看起来在可预见的时间内,我不需要大幅更改我的工作流,因为 Claude 确实擅长读懂暗示、推断用户意图并交付成果。

但这也引发了关于模型人格以及哪种更适合你的构建风格的讨论:interpretive vs. executional(解释型 vs. 执行型)。

基于此以及我的构建风格,我在本次测试中将 Opus 4.6 as the winner 评为胜者。Codex 速度快,但准确性和结果仍是决定性因素。

如果你想让我特别测试什么,留下评论吧。更多测试即将推出!

Back to Blog

相关文章

阅读更多 »

量子安全计算的不安全性

量子隐私:为何某些量子技巧无法保护秘密安全 人们曾希望量子技术能够阻止陌生人窃取秘密,就像智能卡……