坦白如何让语言模型保持诚实
发布: (2025年12月3日 GMT+8 18:00)
1 min read
原文: OpenAI Blog
Source: OpenAI Blog
模型诚实的“坦白”
OpenAI 研究人员正在测试一种称为“坦白”的方法,该方法训练模型在出现错误或行为不当时承认错误,从而帮助提升 AI 的诚实性、透明度以及对模型输出的信任。
Source: OpenAI Blog
OpenAI 研究人员正在测试一种称为“坦白”的方法,该方法训练模型在出现错误或行为不当时承认错误,从而帮助提升 AI 的诚实性、透明度以及对模型输出的信任。
OpenAI 研究人员推出了一种新方法,充当大型语言模型(LLMs)的“真相血清”,迫使它们自行报告自己的不当行为……
2020年5月的一个夜晚,在封锁最严峻的时期,Deep Ganguli感到担忧。当时,Ganguli是斯坦福人本人工智能研究所(Stanford Institute for Human-Centered AI)的研究主任,……
OpenAI 正在提供最高 200 万美元的资助,用于 AI 与心理健康交叉领域的研究。该项目支持研究真实世界风险的项目……
概述:AI行业在2025年12月面临一种悖论:一方面拥有数十亿美元的估值,另一方面却大幅削减销售目标;用户增长呈爆炸式增长,同时商业化进程也在加速……