· ai
我训练探针捕捉 AI 模型的 sandbagging
TL;DR:我从三个 open‑weight 模型中提取了“sandbagging directions”,并训练了线性探针,以 90‑96% 的准确率检测 sandbagging 意图。The mo...
TL;DR:我从三个 open‑weight 模型中提取了“sandbagging directions”,并训练了线性探针,以 90‑96% 的准确率检测 sandbagging 意图。The mo...
Mistral 推出其 Mistral 3 系列,包括前沿模型和为离线、可定制的企业使用而设计的高效小模型——旨在证明……
文章链接: https://mistral.ai/news/mistral-3 评论链接: https://news.ycombinator.com/item?id=46121889 得分: 138 评论数: 38