클로드 코드, 사상 최대 업그레이드로 5개 에이전트를 동시에 실행 — 그 결과는?

발행: 3일 전 (2026년 6월 9일 AM 04:01 GMT+9)

13 분 소요

출처: The New Stack

Anthropic는 5월 28일에 Claude Opus 4.8을 출시했으며, 이와 함께 Claude Code에 동적 워크플로우가 도입되었습니다. 이 완전 테스트 가능한 연구 프리뷰 기능은 Claude가 단일 AI 쇼가 아니라 개발자 팀처럼 행동하게 합니다. 동적 워크플로우를 통해 Claude는 자체 오케스트레이션 스크립트를 작성하고, 하나의 세션에서 수백 개의 병렬 서브에이전트를 띄우며, 출력물을 검증할 수 있습니다. Anthropic의 말(https://claude.com/blog/introducing-dynamic-workflows-in-claude-code)을 인용하면, “보통 분기 단위로 계획하던 작업이 이제 며칠 안에 끝납니다.”

동적 워크플로우가 표준 단일 에이전트와 구조적으로 다른 점은 오케스트레이션 명령이 어디에 위치하느냐입니다. 일반 서브에이전트 세션에서는 Claude가 차례대로 다음에 할 일을 결정하고, 모든 중간 결과가 컨텍스트 윈도우에 추가됩니다. 동적 워크플로우에서는 Claude가 오케스트레이션을 자체적으로 처리하는 스크립트를 작성하므로, 컨텍스트 윈도우에는 최종 답변만 들어갑니다.

Anthropic의 문서에 따르면, 오케스트레이션 명령을 Claude의 컨텍스트 윈도우가 아니라 별도 스크립트로 옮김으로써 대규모 병렬 실행이 가능해진다고 합니다. Claude Code에서 일하는 Thariq Shihipar(https://www.linkedin.com/in/thariqshihipar/)는 X(https://x.com/trq212/status/2061907538741006796)에서 이렇게 극찬했습니다: “워크플로우는 스킬과 서브에이전트 이후 Claude Code 기능에 가장 큰 업그레이드입니다.”

“동적 워크플로우 이전에는 감독해야 할 AI 핸디맨 하나가 있었습니다. 이제는 전체 팀을 데려와 검사도 진행하고 완성된 결과물을 건네주는 종합 계약자와 같습니다.” — 인기 AI 교육자이자 열성 팬인 Ole Lehmann

인기 AI 교육자이자 열성 팬인 Ole Lehmann은 X(https://x.com/itsolelehmann/status/2060420998168809820)에서 동적 워크플로우 출시가 “Opus 4.8 출시보다 훨씬 큰 일”이라고 주장했습니다. 그는 동적 워크플로우를 평이하게 설명합니다: “동적 워크플로우 이전에는 감독해야 할 AI 핸디맨 하나가 있었습니다. 이제는 전체 팀을 데려와 검사도 진행하고 완성된 결과물을 건네주는 종합 계약자와 같습니다.” 충분히 이해가 됩니다.

이러한 주장은 모두 꽤 강력합니다. 하지만 실제로 효과가 있을까요? 저는 동적 워크플로우와 단일 에이전트 워크플로우를 비교 테스트해 보았습니다. 이것이 가치 있는 기능인지, 아니면 마케팅 과대광고인지 확인해 보겠습니다.

테스트

동적 워크플로우를 사용하려면 Claude Code 버전 2.1.154 이상과 Max, Team, Enterprise 플랜 중 하나가 필요합니다. 저는 Max 플랜을 사용하고 있습니다. 테스트를 시작하기 전에 2.1.131에서 2.1.159로 업그레이드했습니다. 버전 2.1.159의 기본 모델은 Opus 4.8입니다.

동일한 목표로 테스트를 두 번 실행했습니다. 로컬 코드베이스를 분석하고 코드 복잡도, 문서 커버리지, 의존성 감사, 테스트 커버리지 매핑을 포함한 마크다운 형식의 건강 보고서를 생성하는 codebase-health라는 CLI 도구를 만드는 것이 목표였습니다. 두 세션 모두 완전히 빈 폴더에서 시작했습니다.

관심 있는 분들을 위해 제가 사용한 프롬프트 전체를 글 말미에 붙여두겠습니다.

동적 워크플로우 결과

Claude는 6분 59초 만에 작업을 계획하고, 모든 에이전트가 동일한 인터페이스를 기준으로 빌드할 수 있도록 공유 계약을 스캐폴딩한 뒤, 다섯 개의 병렬 에이전트를 동시에 디스패치했습니다.

각 에이전트는 하나의 컴포넌트를 담당하고 독립적으로 작업했습니다(프롬프트에 명시된 대로):

Agent 1은 Python 파일의 중첩 깊이를 분석하기 위해 AST 모듈을 사용한 복잡도 분석기를 만들었습니다. JavaScript 및 기타 언어에 대해서는 휴리스틱 폴백을 적용했습니다. 임계값은 구성 가능했으며, 함수는 50줄, 중첩 레벨은 4단계, 파일은 400줄로 설정했습니다.
Agent 2는 ast.get_docstring을 이용해 문서 커버리지 분석기를 만들었으며, 설계상 private 및 dunder 메서드를 건너뛰고, 비-Python 파일에는 JavaScript 주석 휴리스틱을 적용했습니다.
Agent 3은 requirements.txt와 package.json을 파싱하는 의존성 감사를 구현했습니다. 기본적으로 네트워크 호출을 비활성화했으며, 필요 시 옵션 플래그로 활성화할 수 있게 했습니다.
Agent 4는 관례에 따라 테스트 파일을 찾는 테스트 커버리지 매퍼를 만들었습니다. test_ 접두사, _test 접미사, tests/ 디렉터리를 검사했으며, 이는 파일 매핑이며 라인 커버리지는 아니라는 점을 명시했습니다.
Agent 5는 모든 것을 argparse 기반 CLI에 연결하고, 분석기별 오류 격리, 전체 건강 점수, README 작성을 담당했습니다.

그 결과: 62개의 통과 테스트, 두 개의 동작 엔트리 포인트, 구성 가능한 플래그, 그리고 자체 레포지토리를 대상으로 자체 검증한 SAMPLE_REPORT.md가 생성되었습니다. 토큰 사용량을 물어보니 다섯 서브에이전트가 합쳐서 109,237 토큰을 사용했다고 보고했습니다. 오케스트레이션 스레드 비용은 /cost 명령이 동적 워크플로우 세션에서 제공되지 않아 측정되지 않았습니다. 오케스트레이션 오버헤드를 포함하면 전체 비용은 $3‑$5 정도로 추정됩니다.

그런데 정말 동작하나요?

새 터미널 창을 열고 HTTPie 코드베이스(오픈소스 Python CLI 도구)에 이 도구를 실행했습니다. 몇 초 만에 전체 건강 보고서를 받았습니다.

전체 건강 점수: 60/100 (보통)
코드 복잡도: 93/100, 이슈 35건 발견
문서 커버리지: 17/100, 문서가 없는 공개 함수 926개
의존성: 100/100 (하지만 HTTPie가 setup.cfg를 사용해 의존성을 관리하기 때문에 파싱하지 못한 것이 점수에 반영된 제한점)
테스트 커버리지: 28/100, 72개 소스 파일 중 20개만 매칭 테스트 파일 존재

대부분의 영역에서 충분히 상세했지만, 의존성 부분에서는 한계가 드러났습니다. setup.cfg를 파싱하지 못해 완벽 점수를 부여한 것은 제한점이었습니다. 이 도구는 10분도 채 안 되는 시간에 만들어졌습니다. 완벽을 기대하지는 않았지만, “Null”, “error”, “undefined” 같은 메시지라도 충분히 명시했어야 했습니다.

다시 한 번 강조하자면, 저는 Claude가 한 번에 CLI 도구를 완성하도록 테스트하고 있었습니다. 이는 거의 불가능에 가까운 요구입니다. 1년 전이라면 이 결과에 크게 놀랐겠지만, 2026년 현재 AI 기업들은 우리의 워크플로우에 깊숙이 파고들었고, AI 사용 자체가 기본이 되었습니다.

그럼에도 불구하고, 이번 1차 결과는 제가 Claude 툴링에서 본 다른 1차 결과들과 마찬가지로 가까워졌지만 아직 완전하지는 않습니다. 여전히 전문가가 필요합니다.

그렇다면 동적 워크플로우는 우리가 더 익숙한 단일 에이전트 워크플로우와 비교했을 때 어떤 모습을 보였을까요? 그 이야기는 다음에 다루겠습니다.

단일 에이전트 결과

단일 에이전트는 다른 도구를 만들었습니다. 언어 선호도가 명시되지 않았음에도 불구하고 JavaScript를 선택했는데, 이는 결함이 아니라 단지 하나의 세부사항일 뿐입니다.

그 결과: src/ 폴더, test/ 폴더, bin/cli.js 엔트리 포인트를 가진 JavaScript 기반 CLI 도구가 완성되었습니다. 동적 워크플로우 세션과 달리 /cost 명령이 정상 작동했으며, Opus 4.8이 대부분의 작업을 담당하고, 간단한 작업은 Haiku 4.5가 처리한 것으로 전체 비용 $2.25, 실행 시간 10분 42초, 추가된 코드 라인 1,789줄을 확인할 수 있었습니다.

그런데 정말 동작하나요?

단일 에이전트 도구를 실행하려면 추가 단계가 필요했습니다. pip3으로 설치하려고 했지만 실패했습니다. 단일 에이전트는 pyproject.toml이나 setup.py를 만들지 않았고, 대신 package.json, src/, test/, bin/cli.js를 포함

클로드 코드, 사상 최대 업그레이드로 5개 에이전트를 동시에 실행 — 그 결과는?

테스트

동적 워크플로우 결과

그런데 정말 동작하나요?

단일 에이전트 결과

그런데 정말 동작하나요?

관련 글

‘인터넷에서 무작위로 가져오지 마세요’: 체인가드가 52,000개 오픈소스 패키지에서 발견한 내용

AI가 모든 것을 뒤흔든다: 이제 신입 기술 직업은 어디로 가는가?

‘수동 모델이 깨진다’: 에이전트가 운영 데이터에 쓰면 어떻게 될까

스택 트레이스를 넘어서: AI가 새로운 디버깅 패러다임을 요구하는 이유