思考 Token 并非等价:为什么基准测试无法区分“搜索”和“洞察”(A PCP 实验)

发布: (2025年12月11日 GMT+8 21:44)
2 min read
原文: Dev.to

Source: Dev.to

实验概述

我一直在进行实验,以了解不同的“推理”模型实际上是如何使用它们的思考预算的。结果表明,我们正在观察完全不同的认知物种。

邮递对应问题(PCP)

在一般情况下,PCP 在理论上是不可判定的(你无法编写一个算法来解决每一种变体)。然而,寻找固定长度的特定实例是一个约束满足问题。

实验中使用的多米诺集合

Type A: a  / ab
Type B: b  / ca
Type C: ca / a

给模型的提示

要求模型 既设计多米诺,又基于上述集合解谜

观察到的策略

  • 模拟
  • 逆向工程
  • 模式匹配
  • 低效的暴力搜索
  • 低效的暴力搜索但带有数学

结论

该实验表明,“推理”是一个具有误导性的总称。如果现实世界大多是“不可判定的”,那么 Architect 方法(为安全性而设计)在根本上优于 Brute Force 方法(编写代码并进行模糊测试直至成功)。

Back to Blog

相关文章

阅读更多 »

能自动搭建 eval 设置吗?

为什么 eval 感觉痛苦以及它为何总是被跳过 🔥 eval 本应让你安全,但其设置常常感觉像惩罚:- 你复制 prompts 到…

理解 Vibe Proving

如何让 LLMs 进行可验证的逐步逻辑推理 第 1 部分 文章《Understanding Vibe Proving》首次发表于 Towards Data Science....