思考 Token 并非等价:为什么基准测试无法区分“搜索”和“洞察”(A PCP 实验)

发布: (2025年12月11日 GMT+8 21:44)
2 分钟阅读
原文: Dev.to

Source: Dev.to

实验概述

我一直在进行实验,以了解不同的“推理”模型实际上是如何使用它们的思考预算的。结果表明,我们正在观察完全不同的认知物种。

邮递对应问题(PCP)

在一般情况下,PCP 在理论上是不可判定的(你无法编写一个算法来解决每一种变体)。然而,寻找固定长度的特定实例是一个约束满足问题。

实验中使用的多米诺集合

Type A: a  / ab
Type B: b  / ca
Type C: ca / a

给模型的提示

要求模型 既设计多米诺,又基于上述集合解谜

观察到的策略

  • 模拟
  • 逆向工程
  • 模式匹配
  • 低效的暴力搜索
  • 低效的暴力搜索但带有数学

结论

该实验表明,“推理”是一个具有误导性的总称。如果现实世界大多是“不可判定的”,那么 Architect 方法(为安全性而设计)在根本上优于 Brute Force 方法(编写代码并进行模糊测试直至成功)。

Back to Blog

相关文章

阅读更多 »

为你的LLMs设立护栏

!Forem 标志 https://media2.dev.to/dynamic/image/width=65,height=,fit=scale-down,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%...