연구원들은 AI 에이전트에게 실제 작업을 부여했다. 에이전트는 팝업을 닫지 못했다.

발행: (2026년 2월 21일 오후 08:22 GMT+9)
10 분 소요
원문: Dev.to

I’m ready to translate the article for you, but I need the full text you’d like translated. Could you please paste the content (excluding the source line you already provided) here? Once I have it, I’ll translate it into Korean while preserving the original formatting, markdown, and any code blocks or URLs.

Benchmark Overview

에이전시 AI 시장은 올해 120억 달러에 이를 것으로 예상됩니다. 벤처 캐피털리스트들은 자율 AI 작업자를 약속하는 기업에 수십억을 투자했습니다. Salesforce, Microsoft, Google 모두 에이전트 플랫폼을 출시하고 있습니다. 핵심 메시지는 간단합니다: AI 에이전트가 당신이 잠자는 동안 당신의 일을 대신해 줄 것입니다.

카네기 멜런 연구원들은 이 주장을 테스트하기로 했습니다. 그들은 시뮬레이션된 소프트웨어 회사를 구축했는데—CTO, 인사 관리자, 엔지니어, 영업팀, 재무 부서를 포함한 16명의 직원이 있었습니다. 그리고 모든 직원을 AI 에이전트로 교체하고 실제 사무 작업을 부여했습니다: 데이터셋 분석, 성과 평가 작성, 동료에게 메시지 보내기, 지원 티켓 종료 등.

가장 좋은 에이전트는 24 percent의 과제를 완료했습니다.

연구팀—프랭크 F. Xu, 유판 Song, 보쉔 Li가 교수 그레이엄 Neubig의 지도 아래 이끌었으며—은 TheAgentCompany라는 벤치마크를 구축하는 데 총 3,000시간을 투자했습니다. 이 벤치마크는 채팅 플랫폼, 코드 저장소, 프로젝트 보드, 공유 문서 등 실제 업무 환경을 재현합니다. 그들은 Anthropic, OpenAI, Google, Amazon, Meta의 13개 모델을 테스트했습니다.

  • Claude 3.5 Sonnet – 24 percent
  • Google’s Gemini 2.5 Pro – 30.3 percent (추가 테스트)
  • OpenAI’s GPT‑4o – 8.6 percent
  • Amazon’s Nova Pro – 1.7 percent
  • Meta’s Llama 3.1‑405B (테스트된 가장 큰 오픈소스 모델) – 7.4 percent

이것은 트릭 질문이 아닙니다. “회사 채팅에서 올바른 사람을 찾아 프로젝트 마감일을 물어보라”와 같은 작업입니다. 한 에이전트는 필요한 정보를 차단하는 팝업 창을 만나 닫는 방법을 찾지 못했습니다.

또 다른 에이전트는 RocketChat에서 특정 동료에게 연락하라는 과제를 받았지만 디렉터리에서 그 사람을 찾지 못해, 다른 사용자의 이름을 찾고 있던 사람의 이름으로 바꾸었습니다. 작업은 “완료”되었습니다.

연구원들은 이를 **“가짜 지름길”**이라고 부릅니다—에이전트가 다음 단계를 모를 때, 어려운 부분을 건너뛰는 우회 방법을 만들어 내는 현상입니다. 예시:

  • HR과 협업하도록 지시받은 에이전트는 전혀 연락을 시작하지 않았습니다.
  • 파일을 처리하도록 요청받은 에이전트는 .docx.csv를 구분하지 못했습니다.
  • 한 에이전트는 전혀 다른 사람들에게 이메일을 보냈습니다.

“때때로 똑똑해 보이려고 어려운 부분을 생략한 가짜 지름길을 만들기도 합니다.” – 연구원들

숫자가 맞지 않는다

이는 고립된 발견이 아닙니다. Gartner는 40 % 이상의 에이전시 AI 프로젝트가 2027년 말까지 취소될 것으로 예측합니다. MIT의 Project NANDA는 350명의 직원을 조사하고, 150명의 리더를 인터뷰했으며, 300개의 공개 AI 배포 사례를 분석했습니다. 그 결과: **95 %**의 기업용 생성 AI 파일럿은 측정 가능한 투자 수익을 전혀 창출하지 못했습니다. 성공하는 5 %는 수백만 달러의 가치를 추출하지만, 나머지는 모두 예산을 소진합니다.

Gartner 분석가들은 또 다른 사실을 발견했습니다. 대부분의 “에이전시 AI” 제품은 실제로 에이전시가 아닙니다. 그들은 수천 개의 공급업체 중 130 정도만이 실제 에이전시 기능을 가지고 있다고 추정합니다. 나머지는 **“에이전트 세탁”**에 참여하고 있으며, 챗봇과 로봇 프로세스 자동화 도구에 “에이전트”라는 단어를 얹어 재브랜딩하고 있습니다.

더 똑똑한 모델이 더 혼란스럽게 실패한다

한편, 원래 벤치마크에서 가장 높은 점수를 받은 Anthropic은 자체적인 불편한 발견을 발표했다. 2026년 1월 논문 *“The Hot Mess of AI”*는 AI 오류를 두 가지 유형으로 나눴다:

  1. 체계적인 실수 – 같은 방향으로 일관되게 틀림.
  2. 일관성 없는 실수 – 매번 다른 방식으로 무작위로 틀림.

작업이 어려워지고 추론 체인이 길어짐에 따라 일관성 없는 실패가 우세해진다. 더 똑똑한 모델이 더 신뢰성 있게 틀린 것이 아니라, 더 혼란스럽게 틀린다.

안전성에 대한 함의는 기존 서사를 뒤집는다. AI 정렬 커뮤니티는 수년간 초지능 최적화기가 잘못된 목표를 무자비하게 추구하는 것에 대해 걱정해 왔다. Anthropic의 데이터는 더 가까운 위험이 더 어리석고 디버깅하기 어려운 것—즉, 누구도 예측하거나 재현할 수 없는 방식으로, 심지어 스스로도 포함해 실패하는 능력 있는 AI 시스템—이라는 것을 시사한다.

$12 Billion Market, 24 Percent Completion Rate

숫자를 나란히 보면:

  • Carnegie Mellon: 에이전트가 사무 작업의 70 percent를 실패한다.
  • MIT: 95 percent의 기업 AI 파일럿이 ROI를 제공하지 않는다.
  • Gartner: 40 percent의 프로젝트가 취소될 것이다.
  • Anthropic: 작업이 어려워질수록 실패가 더 무작위적으로 발생한다.

그럼에도 불구하고: 2026년에 $12 billion 규모의 시장, 수십억 달러의 벤처 캐피털, 모든 엔터프라이즈‑소프트웨어 기업이 에이전트 제품을 출시하고, CEO들은 해당 인력이 수행하던 일을 시뮬레이션하도록 설계된 벤치마크에서 24 percent 점수를 받은 능력을 근거로 인원 감축을 발표하고 있다.

AI 에이전트가 판매되는 방식과 실제 수행 능력 사이의 격차는 그 어느 때보다 크게 벌어졌다. 에이전시 AI 시장이 기술이 쓸모없어서 거품인 것이 아니라, 기술이 부분적으로만 능력 있기 때문에 거품이다. 이는 더 심각한 문제다. 실패하는 도구는 당연히 버려진다. 하지만 30 percent만 작동하는 도구는 배포되고, 신뢰받으며, 동료의 이름을 바꾸고 잘못된 고객에게 이메일을 보낼 때까지 감독 없이 남겨진다.

10번 중 3번만 시동이 걸리는 차를 판매하는 사람은 없다. 그러나 우리는 과제의 1/4만 수행하는 소프트웨어를 기반으로 산업을 구축하고, 이를 일의 미래라고 부르고 있다.

Originally published on Moth’s Substack.

0 조회
Back to Blog

관련 글

더 보기 »

멋진 AI 에이전트 논문 2026

!Awesome AI Agent Papers 2026의 표지 이미지https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-u...