我训练探针捕捉 AI 模型的 sandbagging
TL;DR:我从三个 open‑weight 模型中提取了“sandbagging directions”,并训练了线性探针,以 90‑96% 的准确率检测 sandbagging 意图。The mo...
TL;DR:我从三个 open‑weight 模型中提取了“sandbagging directions”,并训练了线性探针,以 90‑96% 的准确率检测 sandbagging 意图。The mo...
研究人员构建了一个名为 Gopher 的非常大型语言系统,以观察当计算机阅读大量文本时会发生什么。随着模型规模的扩大,它们……
摘要——研究人员组建了 BIG-bench,这是一个由众多贡献者创建的 204 项任务的集合,用于评估当前和未来的语言模型能力。
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。
如何让 LLMs 进行可验证的逐步逻辑推理 第 1 部分 文章《Understanding Vibe Proving》首次发表于 Towards Data Science....
什么是 MLSecOps?MLSecOps 是一个框架,将安全实践贯穿整个机器学习生命周期,就像 DevSecOps 对软件开发所做的那样。
OpenAI 正在通过使用强化学习训练的自动化红队来加强 ChatGPT Atlas 对提示注入攻击的防御。这种主动的发现—
大多数当前的 AI 安全工作假设系统不安全,并尝试对其进行更好的行为训练。- 我们添加更多数据。- 我们添加更多约束。- 我们添加更多 fi...
概述:GPT‑4 的早期版本开始执行以前需要人工完成的任务,迅速引起关注。它可以解数学题,编写代码……
OpenAI 正在更新其 Model Spec,加入新的 Under‑18 Principles,定义 ChatGPT 应如何为青少年提供安全、适龄的指导,基于发展……