衡量 AI 完成长任务的能力：Opus 4.5 的 50% 视野为 4h49M

发布: 1个月前 (2025年12月21日 GMT+8 12:06)

1 分钟阅读

Source: Hacker News

文章详情

文章链接: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
评论链接: https://news.ycombinator.com/item?id=46342166
积分: 34

请提供您希望翻译的文章摘录或摘要文本，我将为您翻译成简体中文。

引言：OpenAI 的最新研究方向标志着在先进的 AI 系统的训练和评估方式上出现了重大演进，提出了根本性的问题……

比较不同数据集和模型的指标。文章《Running Evals on a Bloated RAG Pipeline》首次发表于 Towards Data Science……

一个小型基准测试，揭示 AI 和 ML 流水线中的静默失效模式。大多数 AI 博客文章展示最佳实践：干净的架构、整洁的抽象，以及 i...