衡量 AI 完成长任务的能力:Opus 4.5 的 50% 视野为 4h49M
发布: (2025年12月21日 GMT+8 12:06)
1 min read
原文: Hacker News
Source: Hacker News
Source: Hacker News
请提供您希望翻译的文章摘录或摘要文本,我将为您翻译成简体中文。
就在几周前,Google 推出了 Gemini 3 模型,声称它在多个 AI 基准中取得了领先地位。但供应商面临的挑战是……
规模化问题 所以,你已经构建了一个出色的 AI 代理。你用几十个示例对其进行了测试,结果完美无缺。现在,你准备将它部署到生产环境……
引言:OpenAI 的最新研究方向标志着在先进的 AI 系统的训练和评估方式上出现了重大演进,提出了根本性的问题……