阿谀奉承是第一个 LLM ‘暗黑模式’

发布: 2个月前 (2025年12月2日 GMT+8 04:20)

1 分钟阅读

Source: Hacker News

文章链接

你无法对未评估的事物进行对齐。文章《Why AI Alignment Starts With Better Evaluation》首次发表于 Towards Data Science....

概述：我们正在启动行星级规模的大脑，仅仅是为了格式化一个 JSON 文件。这就是“上帝模型谬误”的简要说明。我们正处于“恐怖谷”中：90 % 的...

Atlas 以及大多数当前的 AI 驱动浏览器在三个方面的失败：隐私、安全和审查。文章《AI 浏览器的问题：安全漏洞…》。

OpenAI 正在提供最高 200 万美元的资助，用于 AI 与心理健康交叉领域的研究。该项目支持研究真实世界风险的项目……