EUNO.NEWS EUNO.NEWS
  • All (20349) +286
  • AI (3104) +14
  • DevOps (907) +7
  • Software (10509) +190
  • IT (5781) +75
  • Education (48)
  • Notice
  • All (20349) +286
    • AI (3104) +14
    • DevOps (907) +7
    • Software (10509) +190
    • IT (5781) +75
    • Education (48)
  • Notice
  • All (20349) +286
  • AI (3104) +14
  • DevOps (907) +7
  • Software (10509) +190
  • IT (5781) +75
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 3周前 · ai

    我训练探针捕捉 AI 模型的 sandbagging

    TL;DR:我从三个 open‑weight 模型中提取了“sandbagging directions”,并训练了线性探针,以 90‑96% 的准确率检测 sandbagging 意图。The mo...

    #sandbagging #model probing #linear probes #AI safety #Mistral #Gemma #evaluation gaming #model steering
  • 3周前 · ai

    从伪影检测对抗样本

    概述 许多 AI 系统可以被对图像进行微小、几乎不可见的编辑所欺骗,从而导致它们给出错误的答案。研究人员已发现一种简…

    #adversarial attacks #uncertainty estimation #model robustness #computer vision #AI safety
  • 3周前 · ai

    关于评估对抗鲁棒性

    为什么一些 AI 防御会失效——对测试和安全的简要观察 人们构建从数据中学习的系统,但微小的棘手变化可能导致它们失效。研究……

    #adversarial attacks #robustness #AI safety #model evaluation #security testing #best practices
  • 3周前 · ai

    扩展语言模型:方法、分析与从 Gopher 训练中获得的洞见

    研究人员构建了一个名为 Gopher 的非常大型语言系统,以观察当计算机阅读大量文本时会发生什么。随着模型规模的扩大,它们……

    #Gopher #large language models #scaling #model bias #AI safety #reading comprehension #fact-checking
  • 3周前 · ai

    超越模仿游戏:量化与外推语言模型的能力

    摘要——研究人员组建了 BIG-bench,这是一个由众多贡献者创建的 204 项任务的集合,用于评估当前和未来的语言模型能力。

    #large language models #BIG-bench #model scaling #capability evaluation #bias in AI #AI safety #emergent abilities
  • 3周前 · ai

    自主导航现实世界:从PG&E停电中得到的教训

    请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。

    #autonomous vehicles #Waymo #self-driving cars #real-world navigation #PG&E outage #AI safety #robotics
  • 0个月前 · ai

    理解 Vibe Proving

    如何让 LLMs 进行可验证的逐步逻辑推理 第 1 部分 文章《Understanding Vibe Proving》首次发表于 Towards Data Science....

    #LLM #reasoning #verifiable logic #step-by-step reasoning #AI safety
  • 0个月前 · ai

    什么是 MLSecOps?

    什么是 MLSecOps?MLSecOps 是一个框架,将安全实践贯穿整个机器学习生命周期,就像 DevSecOps 对软件开发所做的那样。

    #MLSecOps #machine learning security #AI safety #MLOps #DevSecOps #model protection
  • 0个月前 · ai

    持续强化 ChatGPT Atlas 对抗提示注入

    OpenAI 正在通过使用强化学习训练的自动化红队来加强 ChatGPT Atlas 对提示注入攻击的防御。这种主动的发现—

    #ChatGPT #Atlas #prompt injection #reinforcement learning #red teaming #AI safety #security
  • 0个月前 · ai

    为什么 AI 安全应从结构上强制,而不是通过训练

    大多数当前的 AI 安全工作假设系统不安全,并尝试对其进行更好的行为训练。- 我们添加更多数据。- 我们添加更多约束。- 我们添加更多 fi...

    #AI safety #alignment #reinforcement learning #structural enforcement #machine learning #AI governance #reward hacking
  • 1个月前 · ai

    人工通用智能的火花:GPT-4 的早期实验

    概述:GPT‑4 的早期版本开始执行以前需要人工完成的任务,迅速引起关注。它可以解数学题,编写代码……

    #GPT-4 #artificial general intelligence #large language models #AI safety #emergent behavior
  • 1个月前 · ai

    更新我们的 Model Spec 以加入青少年保护

    OpenAI 正在更新其 Model Spec,加入新的 Under‑18 Principles,定义 ChatGPT 应如何为青少年提供安全、适龄的指导,基于发展……

    #OpenAI #Model Spec #teen protection #under-18 principles #AI safety #ChatGPT #developmental science #ethical AI

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026