思考 Token 并非等价:为什么基准测试无法区分“搜索”和“洞察”(A PCP 实验)
发布: (2025年12月11日 GMT+8 21:44)
2 min read
原文: Dev.to
Source: Dev.to
实验概述
我一直在进行实验,以了解不同的“推理”模型实际上是如何使用它们的思考预算的。结果表明,我们正在观察完全不同的认知物种。
邮递对应问题(PCP)
在一般情况下,PCP 在理论上是不可判定的(你无法编写一个算法来解决每一种变体)。然而,寻找固定长度的特定实例是一个约束满足问题。
实验中使用的多米诺集合
Type A: a / ab
Type B: b / ca
Type C: ca / a
给模型的提示
要求模型 既设计多米诺,又基于上述集合解谜。
观察到的策略
- 模拟
- 逆向工程
- 模式匹配
- 低效的暴力搜索
- 低效的暴力搜索但带有数学
结论
该实验表明,“推理”是一个具有误导性的总称。如果现实世界大多是“不可判定的”,那么 Architect 方法(为安全性而设计)在根本上优于 Brute Force 方法(编写代码并进行模糊测试直至成功)。