衡量 AI 完成长任务的能力:Opus 4.5 的 50% 视野为 4h49M
发布: (2025年12月21日 GMT+8 12:06)
1 分钟阅读
原文: Hacker News
Source: Hacker News
Source: Hacker News
请提供您希望翻译的文章摘录或摘要文本,我将为您翻译成简体中文。
引言:OpenAI 的最新研究方向标志着在先进的 AI 系统的训练和评估方式上出现了重大演进,提出了根本性的问题……
比较不同数据集和模型的指标。文章《Running Evals on a Bloated RAG Pipeline》首次发表于 Towards Data Science……
一个小型基准测试,揭示 AI 和 ML 流水线中的静默失效模式。大多数 AI 博客文章展示最佳实践:干净的架构、整洁的抽象,以及 i...