坦白如何让语言模型保持诚实
发布: (2025年12月3日 GMT+8 18:00)
1 min read
原文: OpenAI Blog
Source: OpenAI Blog
模型诚实的“坦白”
OpenAI 研究人员正在测试一种称为“坦白”的方法,该方法训练模型在出现错误或行为不当时承认错误,从而帮助提升 AI 的诚实性、透明度以及对模型输出的信任。
Source: OpenAI Blog
OpenAI 研究人员正在测试一种称为“坦白”的方法,该方法训练模型在出现错误或行为不当时承认错误,从而帮助提升 AI 的诚实性、透明度以及对模型输出的信任。
OpenAI 研究人员推出了一种新方法,充当大型语言模型(LLMs)的“真相血清”,迫使它们自行报告自己的不当行为……
2020年5月的一个夜晚,在封锁最严峻的时期,Deep Ganguli感到担忧。当时,Ganguli是斯坦福人本人工智能研究所(Stanford Institute for Human-Centered AI)的研究主任,……
OpenAI 和 Anthropic 在今天以及本月早些时候发布的两份报告中声称,使用 enterprise AI tools 能提升生产力和企业……
什么是可解释人工智能(Explainable AI)?简而言之,Explainable AI(XAI)是一种旨在透明和负责任的 AI。它不仅提供答案,而且还……