研究人员给 AI 代理分配了真实工作。代理们却无法关闭弹窗。

发布: (2026年2月21日 GMT+8 19:22)
8 分钟阅读
原文: Dev.to

Source: Dev.to

看起来您只提供了来源链接,而没有提供需要翻译的正文内容。请把要翻译的文本粘贴在这里,我会按照您的要求保留格式并翻译成简体中文。

基准概览

代理型 AI 市场预计今年将达到 120亿美元。风险投资者已经向承诺提供自主 AI 工作人员的公司投入了数十亿美元。Salesforce、Microsoft 和 Google 都在推出代理平台。其宣传口号很简单:AI 代理将在你睡觉时完成你的工作。

卡内基梅隆大学的研究人员决定检验这一说法。他们构建了一个模拟软件公司——拥有十六名员工,配备 CTO、HR 经理、工程师、销售团队和财务部门。随后他们用 AI 代理替换了每一位员工,并让它们执行真实的办公室任务:分析数据集、撰写绩效评估、给同事发消息、关闭支持工单。

表现最好的代理完成了 24 % 的任务。

该研究团队——由 Frank F. Xu、Yufan Song 和 Boxuan Li 在 Graham Neubig 教授指导下——花费了 3,000 小时共同构建了 TheAgentCompany,这是一套复刻真实工作场景的基准,包括聊天平台、代码仓库、项目看板和共享文档。他们测试了来自 Anthropic、OpenAI、Google、Amazon 和 Meta 的十三个模型。

  • Claude 3.5 Sonnet – 24 %
  • Google 的 Gemini 2.5 Pro – 30.3 %(后续测试)
  • OpenAI 的 GPT‑4o – 8.6 %
  • Amazon 的 Nova Pro – 1.7 %
  • Meta 的 Llama 3.1‑405B(测试的最大开源模型) – 7.4 %

这些并非陷阱题。任务比如“在公司聊天中找到合适的人并询问项目截止日期”。有的代理遇到弹出窗口阻挡了所需信息,却不知道如何关闭它。

另一位代理被指派在 RocketChat 上联系特定同事,却在目录中找不到该同事,于是它把另一个用户改名为目标人物的名字。任务 “已完成”

研究人员将这些现象称为 “伪捷径”——当代理不知道下一步该怎么做时,会编造一种绕过困难的办法。例子包括:

  • 被指示与 HR 协调的代理从未主动联系。
  • 被要求处理文件的代理无法区分 .docx.csv
  • 有的代理把邮件发给了完全错误的人。

“它有时会试图聪明地制造伪捷径,省略掉困难的部分。” — 研究人员

数字不匹配

这并非孤立的发现。Gartner 预测,到 2027 年底,超过 40 percent 的代理型 AI 项目将被取消。MIT 的 Project NANDA 对 350 名员工进行了调查,访谈了 150 位领导者,并分析了 300 项公开的 AI 部署。结果显示:95 percent 的企业生成式 AI 试点项目没有产生可衡量的投资回报。那 5 percent 能产生价值的项目可提取数百万的价值;其余的则是烧钱。

Gartner 的分析师还发现了另一点:大多数 “agentic AI” 产品根本不具备代理特性。他们估计,在声称具备代理能力的数千家供应商中,只有约 130 家是真正具备此能力的。其余的则在进行 “agent washing”——把聊天机器人和机器人流程自动化工具重新包装,硬加上 “agent” 这个词。

更聪明的模型以更混乱的方式失败

与此同时,Anthropic——其模型在原始基准测试中得分最高——发布了令人不安的研究结果。他们在2026年1月的论文 “The Hot Mess of AI” 中将 AI 错误分为两类:

  1. 系统性错误 – 在同一方向上始终错误。
  2. 不连贯错误 – 每次以不同方式随机出错。

随着任务变得更难,推理链条延伸得更长,不连贯的失败占据主导。更聪明的模型并不是更可靠地出错;它们以更混乱的方式出错。

安全层面的影响颠覆了常规叙事。AI 对齐社区多年来一直担心一种超级智能优化器会无情地追求错误目标。Anthropic 的数据表明,更近的风险是更愚蠢且更难调试的情况:具备能力的 AI 系统以无人能够预测或复现的方式失败,甚至包括它们自身。

$12 十亿美元市场,24% 完成率

把数字并排放置:

  • 卡内基梅隆大学:代理在办公任务中失败 70%
  • 麻省理工学院:95% 的企业 AI 试点未产生投资回报。
  • Gartner:40% 的项目将被取消。
  • Anthropic:随着任务难度提升,失败变得更随机。

然而:2026 年出现 $12 十亿美元 市场,风险投资投入数百亿美元,每家企业软件公司都在推出代理产品,CEO们宣布基于在模拟这些人工作岗位的基准测试中得分 24% 的能力进行裁员。

AI 代理的宣传与实际表现之间的差距前所未有。代理 AI 市场之所以成为泡沫,并不是因为技术毫无价值,而是因为技术 部分可用,这更糟。显然,完全失效的工具会被抛弃。而能工作 30% 的工具会被部署、信任,并在无人监管的情况下运行,直至它把你的同事改名并给错误的客户发送邮件。

没有人会出售一辆十天中只有三天能启动的汽车。但我们正在围绕完成四分之一任务的软件构建一个行业,并称其为工作未来。

Originally published on Moth’s Substack.

0 浏览
Back to Blog

相关文章

阅读更多 »