코딩이 인간‑AI 협업에 남는 이유: 스탠포드 51개 배포의 역설

발행: (2026년 6월 6일 PM 01:09 GMT+9)
11 분 소요
원문: Dev.to

Source: Dev.to

“AI를 도입했지만 결과가 없었다”와 “AI 덕분에 개발 속도가 크게 빨라졌다”는 같은 해, 종종 같은 회사 안에서도 동시에 들린다. 그 차이는 어디서 오는 걸까?
스탠포드 디지털 이코노미 랩의 The Enterprise AI Playbook: Lessons from 51 Successful Deployments (2026년 4월)는 실제 데이터를 가지고 그 질문에 답한다. 41개 조직·9개 산업에 걸친 51개의 실제 배포 사례를 구조화된 인터뷰와 내부 문서를 통해 분석해, 성공을 이끈 요인과 실패 요인을 구분한다.

지금까지 대부분의 보도는 이 보고서를 경영 관점에서 읽는다: AI 도입은 조직 변화 문제이며, 프로세스 재설계와 경영진의 약속이 중요하다는 식이다. 그 관점은 정확하지만, 보고서는 고객 지원, 소프트웨어 엔지니어링, 마케팅 등 다양한 영역을 다루며, 특히 소프트웨어 엔지니어링에 관한 내용이 경영 중심 해석에서는 거의 다루어지지 않는다.

엔지니어의 시각으로 읽어보면 한 가지 역설이 눈에 띈다. 고객 지원과 IT 운영은 점점 자율 AI 로 이동하고 있지만, 코딩은 여전히 “인간‑AI 협업” 단계에 머물러 있다. 이는 “AI 코딩이 최전선이다”라는 현재 분위기와는 정반대다.

이 글은 그 역설에서 시작한다. 먼저 보고서의 방법론과 주요 결과를 살펴보고, 코딩이 협업에 머무는 구조적 원인을 분석한 뒤, 51건 사례를 개별 엔지니어, 엔지니어링 리드, 조직 차원의 개발 책임자라는 세 관점에서 다시 읽어본다. 보고서의 발견에 충실하면서도 그 너머를 탐구한다.


연구 개요 (간단히)

  • 저자: 엘리사 페레이라(Elisa Pereira), 알빈 왕 그레이린(Alvin Wang Graylin), 에릭 브린욜프슨(Erik Brynjolfsson)
  • 브린욜프슨은 정보 경제학 분야에서 가장 많이 인용되는 연구자 중 한 명으로, IT 투자 생산성 효과를 최초로 측정한 연구로 유명하다. 2021년에 제시한 **“생산성 J‑곡선”**은 이번 연구의 핵심 이론적 토대다.

J‑곡선 요약

일반 목적 기술(예: AI)은 단순히 도입한다고 생산성이 바로 오르지 않는다. 프로세스 재설계, 교육, 조직 재구성 등 무형 자산에 대한 보완 투자가 필요하다. 이 투자 단계에서는 오히려 생산성이 하락한다가, 투자가 결실을 맺으면 급격히 상승한다. 곡선이 ‘J’ 모양을 띠는 이유다. 보고서가 “조직이 기술보다 더 중요하다”고 강조하는 근거가 바로 여기 있다.

선정 기준

  • 파일럿 단계가 끝나 실제 운영에 들어간 배포
  • 실제 워크플로에 통합돼 3개월 이상 다수 팀이 의사결정에 활용
  • 생산성, 매출, 고객 만족 등 명확한 비즈니스 성과가 측정됨
  • 다른 팀·지역에서도 재현 가능

인터뷰 기간 및 샘플 특성

  • 2025년 8월 ~ 2026년 2월, 기업당 최소 60분 구조화 인터뷰 1회 진행
  • 내부 메트릭, 프로젝트 플랜, 재무 문서 등 보조 자료 활용
  • 제조·금융·기술 분야 비중이 높음

핵심 결론

같은 기술·같은 목적이라도 결과는 조직마다 크게 달라졌다. 차이를 만든 것은 AI 모델 자체가 아니라 조직의 준비도, 프로세스, 리더십, 실패를 허용하는 문화였다.

엔지니어링 조직에 가장 관련 깊은 발견

  • **77 %**가 가장 어려운 과제는 무형 비용(변화 관리, 데이터 품질, 프로세스 재설계)이며, 기술 자체는 “가장 쉬운 부분”으로 일관적으로 평가됨.
  • **61 %**의 성공 프로젝트는 이전에 실패한 AI 프로젝트를 경험했으며, 이 sunk cost는 성공 사례 ROI에 반영되지 않는다.
  • 동일한 사용 사례라도 한 기업은 몇 주, 다른 기업은 몇 년이 걸렸다. 차이는 기술이 아니라 경영진 참여, 기존 인프라, 사용자 의지였다.
  • Escalation 모델(AI가 80 % 이상 자동 처리하고 인간은 예외만 검토)에서는 **중위수 생산성 향상 71 %**를 기록, 승인 기반 모델(30 %)보다 현저히 높았다. (보고서는 이 격차가 작업 특성 차이 때문일 수도 있다고 언급)
  • Agentic AI 구현은 전체의 20 %에 불과했지만, 중위수 생산성 향상은 **71 %**로, 고자동화 접근(40 %)보다 높았다.
  • 42 % 사례에서 모델 선택은 완전히 교체 가능했으며, 지속적인 이점은 오케스트레이션 레이어에 있었고, 기본 모델 자체는 크게 차별화되지 않았다.

주의: 이 연구는 성공적인 배포만을 대상으로 한다. 선택 편향이 명시적으로 언급돼 있다. 기업들에게 과거 실패·포기된 파일럿에 대해서도 질문했지만, 최종 분석에 포함된 것은 실제 가치를 창출한 사례뿐이다. 따라서 “성공이 어떤 모습이고, 그것을 달성하려면 무엇이 필요한가”를 보여줄 뿐, 성공이 얼마나 흔한가는 다루지 않는다. 보고서는 2025년 MIT NANDA 이니셔티브의 “The GenAI Divide: State of AI in Business 2025”(생성 AI 파일럿 95 %가 측정 가능한 재무 영향을 만들지 못함)와 대비해, 성공 사례를 깊이 파고든다고 설명한다. 이 비대칭을 염두에 두고 읽을 필요가 있다.


인간‑AI 루프(HITL) 현황표 (엔지니어 시각)

보고서 3장에는 비즈니스 기능별 인간‑인‑루프(HITL) 수준을 정리한 표가 있다. 엔지니어가 보면 뭔가 어색하게 느껴진다.

Function (기능)HITL level (HITL 수준)Median productivity gain (중위수 생산성 향상)
IT operations (IT 운영)Escalation (자동화 80 % 이상)90 %
Customer support (고객 지원)Escalation71 %
Claims processing (청구 처리)Escalation50 %
Field service (현장 서비스)Approval (AI가 작업 수행 후 인간이 승인)80 %
Clinical documentation (임상 문서)Approval66 %
Coding (코딩)Collaboration (인간‑AI 협업)54 %

출처: Chapter 3, “How much human oversight is optimal?”

코딩만이 Collaboration 단계에 머물고 있다. 임상 문서는 Approval 단계에 있는데, 이는 의료 기록이 법적 문서이므로 의사가 하나씩 서명해야 하기 때문이다. 청구 처리와 고객 지원은 고볼륨, 명확한 성공 기준, 복구 가능한 실수라는 특성 때문에 Escalation 단계로 이동할 수 있다.

왜 코딩은 협업 단계에 머무는가?

규제는 여기까지 강제하지 않는다. 그럼에도 불구하고 인간과 AI가 작업 단위별로 계속 협업한다.

보고서는 코딩 현장의 변화를 이렇게 설명한다: 엔지니어가 전체 작업을 스스로 완성하는 대신, AI가 생성한 코드를 검토하고 작은 수정 후 PR을 머지한다. 라틴아메리카의 한 핀테크에서는 AI 에이전트가 1억 명 이상의 고객을 서비스하는 시스템에서 수백만 라인의 레거시 코드를 마이그레이션했으며, 원래 18개월·1,000명 규모였던 작업을 몇 주 만에 끝냈다. 한 보험사에서는 5,000시간·7명·2027년 완성을 목표로 했던 레거시 재구축을 600시간·3명으로 단축했다.

즉, 코딩이 “속도가 느려졌다”는 것이 아니라 역할이 작성 → 검토 로 바뀌었고, 생산성은 54 % 상승했다. 다만 다른 기능이 달성한 완전 자율 수준에 아직 도달하지 못했다. 그 배경에는

0 조회
Back to Blog

관련 글

더 보기 »

모바일 한여름 열풍

!Cover image for Mobile Midsommer Madnesshttps://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploa...