알리바바 자체 Qwen3.7-Max, 35시간 자율 실행·Anthropic Claude Code 등 외부 하네스 지원.

발행: (2026년 5월 22일 AM 08:53 GMT+9)
11 분 소요

출처: VentureBeat

AI 산업의 “에이전트 시대”

AI 산업은 **“에이전트 시대”**에 완전히 진입했습니다. 이 패러다임에서는 AI 모델이 단순히 텍스트를 생성하는 수준을 넘어, 이제는 며칠에 걸쳐 복잡한 작업을 계획하고 실행하며 경로를 수정합니다.

따라서 중국 전자상거래 거인 알리바바의 유명 Qwen 팀이 며칠에 걸친 자율적인 에이전트 AI 작업을 수행할 수 있는 모델을 공개한 것이 놀랍지는 않습니다. 그 모델은 Qwen‑3.7‑Max이며, 알리바바는 블로그 포스트에서 ≈ 35 시간 연속 자율 실행을 달성했다고 보고했습니다. 다만 이전 Qwen 팀 릴리스와 달리 프로프라이어터리 형식이며 오픈소스는 아닙니다.

이는 또한 예상된 바이며, 올해 초 Qwen 팀의 주요 인물들이 떠난 뒤 많은 분석가와 업계 전문가들이 우려했던 상황입니다.

하지만 단기적으로는 알리바바에게 재정적으로 타당합니다. AI 모델, 특히 Qwen‑3.7‑Max처럼 강력한 모델을 훈련하는 비용은 막대하며, 오픈소스 모델처럼 무료로 배포하면 비용 회수가 어렵습니다.

이러한 의미에서 알리바바는 OpenAIGoogle 같은 미국 AI 대기업과 마찬가지로 최신 모델을 유료 API와 구독 혹은 유료 웹 플랜을 통해 제공하고, 성능이 다소 낮은 모델만 오픈소스로 내놓는 전략을 취하고 있습니다.

그럼에도 Qwen‑3.7‑Max의 등장은 기업과 개인 사용자에게 선택지를 넓혀 주고, 미국 AI 연구소와의 경쟁을 촉진합니다—예산 규모와 관계없이 소비자에게는 흔히 좋은 일입니다. 다만 모델이 중국 기반 엔드포인트에서만 접근 가능하다는 점은, 정부 계약을 따낼 때 컴플라이언스와 보안 입장을 최적화하려는 미국·유럽 기업들에게 매력도가 떨어질 수 있습니다. 또한 국가·지방·국가 차원의 데이터 주권 규제를 모두 충족하려는 경우에도 제한이 있을 수 있습니다.


마라톤 AI 시대

Qwen‑3.7‑Max가 이전 모델과 차별화되는 이유를 이해하려면, 어떻게 훈련되었고 실제로 어떻게 동작하는지를 살펴봐야 합니다.

언어 모델은 수천 번의 대화 턴에 걸쳐 하나의 사고 흐름을 유지하도록 강요받으면 성능이 저하됩니다. 지시를 잊어버리거나, 변수를 환각하거나, 논리적 루프에 빠지는 경우가 흔합니다. Qwen‑3.7‑Max는 이러한 병목을 극복하기 위해 **“다목적 에이전트 기반”**이자 **“장기 추론”**이 가능한 모델로 설계되었습니다.

시연: 자율 엔지니어링 작업

이 능력을 가장 극명하게 보여주는 사례는 Qwen 팀이 제시한 자율 엔지니어링 작업입니다. 모델은 T‑Head ZW‑M890 PPU가 장착된 격리된 서버에 접근하도록 했으며, 이는 모델이 훈련 중 한 번도 본 적 없는 하드웨어 아키텍처였습니다. 작업은 attention kernel을 최적화하는 것이었습니다.

  • 35시간 연속 동안 Qwen‑3.7‑Max는 완전 자율으로 동작했습니다.
  • 1,158개의 서로 다른 툴 호출을 수행하고, 432개의 커널 평가를 진행했으며, 컴파일 실패를 진단하고 코드를 반복적으로 개선해 10.0배 기하 평균 속도 향상을 달성했습니다.

이에 비해 중국 경쟁 모델인 z.ai의 GLM‑5.1Moonshot의 Kimi K2.6은 각각 7.3배5.0배의 속도 향상에 머물렀으며, 진행이 막히면 세션을 자발적으로 종료하는 경우가 많았습니다. 하지만 두 모델 모두 오픈소스로 제공됩니다.

환경 스케일링

이러한 내구성은 알리바바가 **“환경 스케일링”**이라고 부르는 방식 덕분에 가능합니다. 초기 LLM이 다양한 텍스트를 흡수하면서 똑똑해졌듯이, Qwen‑3.7‑Max는 방대한 규모의 동적 에이전트 환경을 통해 훈련되었습니다.

  • “YC‑Bench” 평가에서 스타트업의 1년 라이프사이클을 시뮬레이션할 수 있으며, 인사 관리와 계약 심사 등 수백 차례의 의사결정 라운드를 탐색합니다. 이 시뮬레이션에서 모델은 208만 달러의 가상 매출을 창출했으며, 이전 세대인 Qwen‑3.6‑Plus보다 거의 두 배에 달하는 성과를 보였습니다.
  • 모델은 보상 해킹 자체 모니터링 기능을 내장하고 있어, 훈련 환경을 속이려 할 때 이를 자동으로 감지하고 자체 행동을 교정하는 휴리스틱 규칙을 추가합니다.

모든 스캐폴드에 맞는 두뇌

제품 관점에서 Qwen‑3.7‑Max는 현대 소프트웨어 개발 및 기업 자동화를 위한 인지 엔진으로 설계되었습니다.

  • 컨텍스트 윈도우: 1 백만 토큰
  • 최대 출력 제한: 64 K 토큰

이 사양은 방대한 코드베이스나 긴 기술 문서를 처리할 때 충분한 여유를 제공합니다.

크로스‑하네스 일반화

가장 매력적인 특징 중 하나는 **“크로스‑하네스 일반화”**입니다. 특정 프로프라이어터리 인터페이스에 최적화된 것이 아니라, Qwen‑3.7‑Max는 다양한 에이전트 프레임워크에 바로 끼워 넣을 수 있는 지능 레이어로 설계되었습니다. Anthropic API 프로토콜을 네이티브로 지원하므로, 개발자는 Claude CodeOpenClaw 같은 기존 도구에 바로 연결할 수 있습니다.

벤치마크 성능

알리바바가 제공한 벤치마크 데이터에 따르면, 이러한 일반화 접근 방식이 큰 성과를 낸 것으로 나타났습니다.

벤치마크Qwen‑3.7‑MaxClaude Opus‑4.6 MaxDeepSeek V4‑Pro Max
Apex Math Reasoning44.534.538.3
Humanity’s Last Exam (HLE)41.4
Realistic Coding Agent (MCP‑Atlas)76.4

이 점수는 최종 사용자에게 실질적인 가치를 제공합니다. 오픈소스 Model Context Protocol (MCP) 통합을 통해 모델은 자율 사무 보조 역할을 수행할 수 있으며, 대학 형식 규격을 읽고 명령줄 도구만으로 지저분한 Word 문서를 자동으로 재포맷하는 작업을 인간 개입 없이 수행합니다.

가격

이 수준의 인공지능을 운영하려면 비용이 발생합니다. 개발자가 Alibaba Cloud Model Studio를 통해 API에 접근할 경우 다음과 같은 요금이 부과됩니다.

리소스가격 (USD)
입력 토큰 (1 M당)$2.50
출력 토큰 (1 M당)$7.50
통합 웹 검색 호출 (1 000당)$10.00
코드 인터프리터 툴무료 (제한 시간)

Qwen‑3.7‑Max는 현재 API 경제에서 전략적 중간 지점을 차지합니다. 국내 경쟁 모델보다 높은 프리미엄을 요구하지만, 거의 두 배에 달하는 비용을 요구하지는 않습니다.

프론티어 AI 모델 가격 스냅샷

참고: OpenAI의 GPT‑5.4 또는 Anthropic의 Claude Opus 4.7을 통해 무거운 에이전트 워크플로를 실행하면 개발자는 각각 $17.50$30.00을 백만 토큰당 지불해야 합니다.

모델입력 (¢/1 K tok)출력 (¢/1 K tok)총 비용 (¢/1 K tok)출처
MiMo‑V2.5 Flash$0.10$0.30$0.40Xiaomi MiMo
MiniMax M2.7$0.30$1.20$1.50MiniMax
Gemini 3.1 Flash‑Lite$0.25$1.50$1.75Google
MiMo‑V2.5$0.40$2.00$2.40Xiaomi MiMo
Kimi‑K2.6$0.95$4.00$4.95Moonshot/Kimi
GLM‑5$1.00$3.20$4.20Z.ai
Grok 4.3 (low context)$1.25$2.50$3.75xAI
DeepSeek V4 Pro$1.74$3.48$5.22DeepSeek
GLM‑5.1$1.40$4.40$5.80Z.ai
Claude Haiku 4
0 조회
Back to Blog

관련 글

더 보기 »