评估 chain-of-thought 可监控性

发布: (2025年12月18日 GMT+8 20:00)
1 min read

Source: OpenAI Blog

Overview

OpenAI 推出了一套用于链式思考可监控性的全新框架和评估套件,涵盖 13 项评估,遍及 24 种环境。我们的研究结果表明,监控模型内部推理过程的效果远胜于仅监控输出,这为实现可扩展的协同……

Back to Blog

相关文章

阅读更多 »

GPT-5.2-Codex

请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。

ChatGPT 应用商店已上线

周三晚上,OpenAI 推出了 App Directory,供用户浏览当前所有可用的工具,并开放了其 SDK,供开发者构建新的交互式体验。