‘Tokenmaxxing’은 개발자들이 생각하는 것보다 생산성을 떨어뜨리고 있다
Source: TechCrunch
“Tokenmaxxing”의 문제점
경영 분야에 오래된 격언이 있다: 측정하는 것이 중요하다. 일반적으로, 측정하는 대상을 더 많이 얻게 된다.
소프트웨어 엔지니어들은 수십 년 동안 생산성 지표에 대해 논쟁해 왔으며, 처음에는 코드 라인 수가 기준이었다. AI 코딩 에이전트가 그 어느 때보다 많은 코드를 생산함에 따라, 관리자가 무엇을 측정해야 할지 명확하지 않다.
엄청난 토큰 예산—개발자가 사용할 수 있는 AI 처리 능력의 양—은 실리콘밸리 개발자들 사이에서 일종의 명예 배지처럼 여겨지고 있다. 프로세스의 입력을 측정하는 것은 출력에 초점을 맞춰야 할 때 큰 의미가 없다. AI 도입을 장려하거나(또는 토큰을 판매하기 위해) 목표가 된다면 의미가 있을 수 있지만, 효율성이 목표라면 그렇지 않다.
개발자 생산성 인사이트 기업들의 증거
Waydev
Waydev의 CEO이자 설립자인 Alex Circei는 이러한 역학을 추적하기 위한 인텔리전스 레이어를 구축하고 있다. Waydev는 10,000명 이상의 소프트웨어 엔지니어를 고용한 50개의 고객과 협업한다.
- 엔지니어링 매니저들은 AI가 생성한 코드 중 개발자가 승인하고 유지하는 **80 %–90 %**의 코드 수용률을 보고한다.
- 그러나 그 후 몇 주 동안 해당 코드를 수정하는 churn(변경) 때문에 실제 수용률은 생성된 코드의 10 %–30 % 수준으로 떨어진다.
AI 코딩 도구의 부상에 대응하여 Waydev는 지난 6개월 동안 플랫폼을 재구성해 AI 에이전트가 생성한 메타데이터를 추적하고, 코드 품질 및 비용에 대한 분석을 제공한다.
GitClear
GitClear는 1월에 발표한 보고서에서 AI 도구가 생산성을 높였지만, 정기적인 AI 사용자는 비AI 사용자에 비해 9.4배 높은 코드 churn을 보였다고 밝혔다—도구가 제공한 생산성 향상보다 두 배 이상 높은 수치다.
Faros AI
Faros AI의 2026년 3월 보고서는 2년간의 고객 데이터를 기반으로, 높은 AI 채택 하에서 코드 churn(삭제된 라인 대비 추가된 라인)이 861 % 증가했음을 보여준다.
Jellyfish
AI가 통합된 엔지니어링을 위한 인텔리전스 플랫폼인 Jellyfish는 2026년 1분기에 7,548명의 엔지니어 데이터를 수집했다. 주요 결과:
- 가장 큰 토큰 예산을 가진 엔지니어가 가장 많은 풀 리퀘스트를 생성했다.
- 생산성 향상은 비례하지 않았다: 토큰 비용이 10배 들었음에도 2배의 처리량만 달성했다.
- 도구는 가치를 창출하기보다 양을 늘리고 있다.
산업적 맥락
대기업들은 아직 AI 도구를 효율적으로 활용하는 방법을 모색 중이다. 예를 들어, Atlassian은 지난해 10억 달러에 엔지니어링 인텔리전스 스타트업 DX를 인수했으며, 이는 고객이 코딩 에이전트의 투자 수익률을 이해하도록 돕기 위함이다.
개발자에게 미치는 영향
통계는 개발자들의 경험과 일치한다: 코드 리뷰와 기술 부채가 쌓이고 있음에도 불구하고, 개발자들은 새로운 도구가 제공하는 자유를 즐기고 있다. 눈에 띄는 패턴은 시니어와 주니어 엔지니어 간의 차이다:
- 주니어 엔지니어는 AI가 생성한 코드를 훨씬 더 많이 수용한다.
- 그 결과, 재작성(rewriting) 작업량도 더 크게 증가한다.
전망
개발자들은 당분간 뒤로 물러날 생각이 없어 보인다.
“이것은 소프트웨어 개발의 새로운 시대이며, 여러분은 적응해야 하고, 기업 차원에서도 강제로 적응하게 된다”고 Circei는 TechCrunch에 말했다. “그냥 지나갈 사이클이 아니라는 점을 기억하세요.”