7小时前 · ai 我训练探针捕捉 AI 模型的 sandbagging TL;DR:我从三个 open‑weight 模型中提取了“sandbagging directions”,并训练了线性探针,以 90‑96% 的准确率检测 sandbagging 意图。The mo...