排行榜“你无法操纵”,由其排名的公司资助

发布: (2026年3月19日 GMT+8 00:30)
2 分钟阅读
原文: TechCrunch

Source: TechCrunch

概览

人工智能模型正快速增多,竞争异常激烈。随着如此多的参与者涌入这一领域,哪一个模型会是最优秀的——以及谁来决定这一点?Arena(前身为 LM Arena)已成为前沿大语言模型的事实标准排行榜,影响资金投入、产品发布和公关周期。仅在七个月内,这家初创公司就从加州大学伯克利分校的博士研究项目成长为估值 $1.7 billion 的公司。

与 Arena 联合创始人的访谈

Equity 主持人 Rebecca Bellan 与 Arena 联合创始人 Anastasios AngelopoulosWei‑Lin Chiang 对话,探讨他们的平台如何成为前沿 AI 模型的首选排行榜,以及他们如何在 OpenAI、Google、Anthropic 等公司支持项目的同时,努力构建一个中立的基准。

Arena 的工作原理

  • 比静态基准更难被操控 – Arena 的动态评估使参与者难以针对固定测试集进行过度优化。
  • 结构性中立性 – 团队解释了“结构性中立性”在实践中的含义,以及它如何帮助保持排行榜的公正性。
  • 当前表现领跑者 – Claude 目前在法律和医疗用例的专家排行榜中名列前茅。
  • 产品扩展 – Arena 正在从聊天扩展到评估代理、编码以及真实世界任务,并推出全新的企业产品。
0 浏览
Back to Blog

相关文章

阅读更多 »

OpenAI 收购 Astral

OpenAI 加速 Codex 的增长,以驱动下一代 Python 开发者工具。今天我们宣布,OpenAI 将收购 Astral https://astral.sh/,……