Qwen3.5 122B 및 35B 모델이 로컬 컴퓨터에서 Sonnet 4.5 성능을 제공한다

발행: 2개월 전 (2026년 3월 1일 오전 05:20 GMT+9)

9 분 소요

Source: Hacker News

알리바바의 Qwen 3.5 미디엄 모델 시리즈

조금 전 Qwen AI 팀은 Qwen 3.5 Medium Model series 를 공개했습니다. 이는 에이전시 툴 호출을 지원하는 네 개의 새로운 대형 언어 모델(LLM) 패밀리이며, 그 중 세 모델은 Apache 2.0 라이선스 하에 상업적 사용이 가능합니다:

Qwen 3.5‑35B‑A3B
Qwen 3.5‑122B‑A10B
Qwen 3.5‑27B

이 모델들은 Hugging Face 와 ModelScope 에서 다운로드할 수 있습니다.

네 번째 모델인 Qwen 3.5‑Flash 는 독점 모델이며 Alibaba Cloud Model Studio API 를 통해서만 접근할 수 있지만, 서구의 대안에 비해 비용 효율성이 크게 뛰어납니다(아래 가격표 참고).

오픈소스 모델이 중요한 이유

Benchmark performance – 제3자 테스트에서 오픈소스 Qwen 3.5 모델은 OpenAI와 Anthropic의 비슷한 규모의 독점 모델과 맞먹거나 능가하며, OpenAI의 GPT‑5‑mini와 Anthropic의 Claude Sonnet 4.5 (불과 5개월 전에 출시)보다 뛰어납니다.
Quantization‑friendly – 팀은 모델이 양자화(즉, 가중치와 KV‑cache 값의 수치 정밀도가 낮아질 때)된 경우에도 높은 정확도를 유지한다고 보고했습니다.
Frontier‑level context windows on the desktop – 대표 모델인 Qwen 3.5‑35B‑A3B는 32 GB VRAM을 가진 일반 소비자용 GPU에서도 1 백만 토큰 이상의 컨텍스트 길이를 지원하며, 많은 경쟁 솔루션에 비해 훨씬 적은 연산량을 요구합니다.
Near‑lossless 4‑bit quantization – 거의 손실이 없는 4비트 양자화를 통해 대규모 데이터셋을 저사양 하드웨어에서도 처리할 수 있습니다.

기술: Delta Force

Qwen 3.5의 성능은 Gated Delta Networks와 sparse Mixture‑of‑Experts (MoE) 시스템을 결합한 하이브리드 아키텍처에서 비롯됩니다. Qwen 3.5‑35B‑A3B 사양의 주요 내용은 다음과 같습니다:

Feature (특징)	Detail (세부 사항)
Parameter Efficiency	총 35 B 파라미터 중, 토큰당 3 B만 활성화됩니다.
Expert Diversity	MoE 레이어에 256 experts가 존재하며, 토큰당 8개의 전문가와 1개의 공유 전문가가 라우팅되어 추론 지연 시간을 감소시킵니다.
Near‑Lossless Quantization	4‑bit 가중치를 사용해 높은 정확도를 유지하면서 로컬 배포를 위한 메모리 사용량을 크게 줄입니다.
Base Model Release	Alibaba는 Qwen 3.5‑35B‑A3B‑Base 모델을 인스트럭션 튜닝된 변형과 함께 오픈소스했습니다.

제품: 먼저 “생각”하는 인텔리전스

Qwen 3.5는 기본 “Thinking Mode”(생각 모드) 를 도입합니다. 최종 답변을 내보내기 전에 모델은 “ 태그로 감싼 내부 추론 체인을 생성하여 복잡한 논리를 풀어냅니다.

모델	대상 하드웨어	컨텍스트 길이	주요 특징
Qwen 3.5‑27B	고효율 GPU	> 800 K 토큰	저자원 환경에 최적화됨.
Qwen 3.5‑Flash	알리바바 클라우드 호스팅	1 M + 토큰 (기본)	프로덕션 등급, 공식 도구 포함.
Qwen 3.5‑122B‑A10B	서버급 GPU (80 GB VRAM)	1 M + 토큰	세계 최대 프런티어 모델과의 격차를 메움.

벤치마크 결과는 35B‑A3B 모델이 더 큰 이전 모델(예: Qwen‑3‑235B) 및 독점 GPT‑5‑mini와 Claude Sonnet 4.5를 지식(MMMLU) 및 시각 추론(MMMU‑Pro)에서 능가함을 보여줍니다.

Alibaba Qwen 3.5 중간 모델 벤치마크 비교 차트. 출처: Alibaba

가격 및 API 통합

가중치를 직접 호스팅하지 않으려는 사용자를 위해 Alibaba Cloud Model Studio는 Qwen 3.5‑Flash에 대한 API를 다음 요금으로 제공합니다:

작업	가격 (1 M 토큰당)
입력	$0.10
출력	$0.40
캐시 생성	$0.125
캐시 읽기	$0.01
툴 호출 – 웹 검색	$10 per 1 000 calls
툴 호출 – 코드 인터프리터	무료 (기간 한정 제공)

다른 주요 LLM API와의 비용 비교

모델	입력	출력	총 비용*	출처
Qwen 3 Turbo	$0.05	$0.20	$0.25	Alibaba Cloud
Qwen 3.5‑Flash	$0.10	$0.40	$0.50	Alibaba Cloud
DeepSeek‑Chat (v3.2‑Exp)	$0.28	$0.42	$0.70	DeepSeek
DeepSeek‑Reasoner (v3.2‑Exp)	$0.28	$0.42	$0.70	DeepSeek
Grok 4.1 Fast (reasoning)	$0.20	$0.50	$0.70	xAI
Grok 4.1 Fast (non‑reasoning)	$0.20	$0.50	$0.70	xAI

*총 비용 = 입력 + 출력 (1 M 토큰당).

Qwen 3.5‑Flash는 따라서 전 세계 LLM API 중 가장 저렴한 편에 속합니다.

모든 정보는 2026년 2월 28일 현재 기준입니다.

모델 가격 개요

Model	Input $ / 1K tokens	Output $ / 1K tokens	Total $ / 1K tokens*	Provider
MiniMax M2.5	0.15	1.20	1.35	MiniMax
MiniMax M2.5‑Lightning	0.30	2.40	2.70	MiniMax
Gemini 3 Flash Preview	0.50	3.00	3.50	Google
Kimi‑k2.5	0.60	3.00	3.60	Moonshot
GLM‑5	1.00	3.20	4.20	Z.ai
ERNIE 5.0	0.85	3.40	4.25	Baidu
Claude Haiku 4.5	1.00	5.00	6.00	Anthropic
Qwen3‑Max (2026‑01‑23)	1.20	6.00	7.20	Alibaba Cloud
Gemini 3 Pro (≤200K)	2.00	12.00	14.00	Google
GPT‑5.2	1.75	14.00	15.75	OpenAI
Claude Sonnet 4.5	3.00	15.00	18.00	Anthropic
Gemini 3 Pro (>200K)	4.00	18.00	22.00	Google
Claude Opus 4.6	5.00	25.00	30.00	Anthropic
GPT‑5.2 Pro	21.00	168.00	189.00	OpenAI

*Total = 입력 + 출력 비용 (1 K 토큰당, 소수점 둘째 자리까지 반올림).

기업 기술 리더 및 의사결정자를 위한 의미

Qwen 3.5 Medium Models의 출시와 함께, 한때 자금이 풍부한 연구소만이 할 수 있었던 빠른 반복과 파인‑튜닝이 이제 많은 비‑기술 기업에서도 온‑프레미스 개발이 가능해졌습니다. 이는 대규모 자본 지출 없이도 정교한 AI를 활용할 수 있게 해줍니다.

조직 전반에 걸쳐 이 아키텍처는 데이터 처리 및 보안 방식을 혁신합니다. 방대한 문서 저장소나 시간 단위 비디오를 로컬에서 ingest할 수 있는 능력은 제3자 API의 프라이버시 위험 없이도 깊이 있는 기관 분석을 가능하게 합니다.

전용 방화벽 안에서 이러한 특화된 Mixture‑of‑Experts 모델을 실행함으로써, 조직은 데이터에 대한 주권적 통제를 유지하면서도 네이티브 “thinking” 모드와 공식 툴‑콜링 기능을 활용해 보다 신뢰성 높고 자율적인 에이전트를 구축할 수 있습니다.

Hugging Face에서 초기 채택자들은 특히 이전에 가장 큰 폐쇄형 모델만이 경쟁할 수 있었던 에이전시 시나리오에서 모델이 “격차를 좁히는” 능력을 크게 칭찬했습니다.

원시 규모보다 아키텍처 효율성에 중점을 둔 이번 변화는 AI 통합이 비용 효율적이고, 안전하며, 변화하는 운영 요구에 발맞춰 민첩하게 유지될 수 있도록 보장합니다.

Qwen3.5 122B 및 35B 모델이 로컬 컴퓨터에서 Sonnet 4.5 성능을 제공한다

알리바바의 Qwen 3.5 미디엄 모델 시리즈

오픈소스 모델이 중요한 이유

기술: Delta Force

제품: 먼저 “생각”하는 인텔리전스

가격 및 API 통합

다른 주요 LLM API와의 비용 비교

모델 가격 개요

기업 기술 리더 및 의사결정자를 위한 의미

관련 글

Siri가 난처했다. Apple이 이를 고치려 하고 있다.

메모리는 AI에서 누락된 레이어이다

절대 반복하지 마세요: LLM 앱에 지속 메모리를 제공하는 ContextMD

시작을 다시 하지 않고 Claude로 전환하기

알리바바의 Qwen 3.5 미디엄 모델 시리즈

오픈소스 모델이 중요한 이유

기술: Delta Force

제품: 먼저 “생각”하는 인텔리전스

가격 및 API 통합

다른 주요 LLM API와의 비용 비교

모델 가격 개요

기업 기술 리더 및 의사결정자를 위한 의미

관련 글

Siri가 난처했다. Apple이 이를 고치려 하고 있다.

메모리는 AI에서 누락된 레이어이다

절대 반복하지 마세요: LLM 앱에 지속 메모리를 제공하는 ContextMD

시작을 다시 하지 않고 Claude로 전환하기

알리바바의 Qwen 3.5 미디엄 모델 시리즈