阿谀奉承是第一个 LLM ‘暗黑模式’
发布: (2025年12月2日 GMT+8 04:20)
1 min read
原文: Hacker News
Source: Hacker News
Source: Hacker News
你无法对未评估的事物进行对齐。文章《Why AI Alignment Starts With Better Evaluation》首次发表于 Towards Data Science....
概述:我们正在启动行星级规模的大脑,仅仅是为了格式化一个 JSON 文件。这就是“上帝模型谬误”的简要说明。我们正处于“恐怖谷”中:90 % 的...
Atlas 以及大多数当前的 AI 驱动浏览器在三个方面的失败:隐私、安全和审查。文章《AI 浏览器的问题:安全漏洞…》。
OpenAI 正在提供最高 200 万美元的资助,用于 AI 与心理健康交叉领域的研究。该项目支持研究真实世界风险的项目……