2周前 · ai 思考 Token 并非等价:为什么基准测试无法区分“搜索”和“洞察”(A PCP 实验) 实验概述 我一直在进行实验,以了解不同的“reasoning”模型实际上是如何使用它们的思考预算的。结果表明……