思考 Token 并非等价：为什么基准测试无法区分“搜索”和“洞察”（A PCP 实验）

发布: 1个月前 (2025年12月11日 GMT+8 21:44)

2 分钟阅读

原文: Dev.to

Source: Dev.to

实验概述

我一直在进行实验，以了解不同的“推理”模型实际上是如何使用它们的思考预算的。结果表明，我们正在观察完全不同的认知物种。

在一般情况下，PCP 在理论上是不可判定的（你无法编写一个算法来解决每一种变体）。然而，寻找固定长度的特定实例是一个约束满足问题。

Type A: a  / ab
Type B: b  / ca
Type C: ca / a

要求模型 既设计多米诺，又基于上述集合解谜。

该实验表明，“推理”是一个具有误导性的总称。如果现实世界大多是“不可判定的”，那么 Architect 方法（为安全性而设计）在根本上优于 Brute Force 方法（编写代码并进行模糊测试直至成功）。