AI metrics

2周前 · ai

Artificial Analysis 对其 AI Intelligence Index 进行彻底改革，用“真实世界”测试取代流行的基准测试

构建更智能 AI 模型的军备竞赛面临测量问题：用于对它们进行排名的测试几乎和模型的提升一样快地变得过时。O...

#AI benchmarking #Artificial Analysis #Intelligence Index #real‑world tests #model evaluation #AI metrics
1个月前 · ai

衡量 AI 完成长任务的能力

请提供您希望翻译的文章摘录或摘要文本，我将为您翻译成简体中文。

#AI evaluation #long-context tasks #benchmarking #LLM performance #AI metrics
1个月前 · ai

二元加权评估...如何

1. 什么是二元加权评估？从高层次来看：- 为任务定义一组二元标准。每个标准都是一个可以用…回答的问题。

#LLM evaluation #binary weighted evaluation #agent testing #AI metrics #prompt engineering