Qwen3.5 122B 및 35B 모델이 로컬 컴퓨터에서 Sonnet 4.5 성능을 제공한다
Source: Hacker News
알리바바의 Qwen 3.5 미디엄 모델 시리즈
조금 전 Qwen AI 팀은 Qwen 3.5 Medium Model series 를 공개했습니다. 이는 에이전시 툴 호출을 지원하는 네 개의 새로운 대형 언어 모델(LLM) 패밀리이며, 그 중 세 모델은 Apache 2.0 라이선스 하에 상업적 사용이 가능합니다:
- Qwen 3.5‑35B‑A3B
- Qwen 3.5‑122B‑A10B
- Qwen 3.5‑27B
이 모델들은 Hugging Face 와 ModelScope 에서 다운로드할 수 있습니다.
네 번째 모델인 Qwen 3.5‑Flash 는 독점 모델이며 Alibaba Cloud Model Studio API 를 통해서만 접근할 수 있지만, 서구의 대안에 비해 비용 효율성이 크게 뛰어납니다(아래 가격표 참고).
오픈소스 모델이 중요한 이유
- Benchmark performance – 제3자 테스트에서 오픈소스 Qwen 3.5 모델은 OpenAI와 Anthropic의 비슷한 규모의 독점 모델과 맞먹거나 능가하며, OpenAI의 GPT‑5‑mini와 Anthropic의 Claude Sonnet 4.5 (불과 5개월 전에 출시)보다 뛰어납니다.
- Quantization‑friendly – 팀은 모델이 양자화(즉, 가중치와 KV‑cache 값의 수치 정밀도가 낮아질 때)된 경우에도 높은 정확도를 유지한다고 보고했습니다.
- Frontier‑level context windows on the desktop – 대표 모델인 Qwen 3.5‑35B‑A3B는 32 GB VRAM을 가진 일반 소비자용 GPU에서도 1 백만 토큰 이상의 컨텍스트 길이를 지원하며, 많은 경쟁 솔루션에 비해 훨씬 적은 연산량을 요구합니다.
- Near‑lossless 4‑bit quantization – 거의 손실이 없는 4비트 양자화를 통해 대규모 데이터셋을 저사양 하드웨어에서도 처리할 수 있습니다.
기술: Delta Force
Qwen 3.5의 성능은 Gated Delta Networks와 sparse Mixture‑of‑Experts (MoE) 시스템을 결합한 하이브리드 아키텍처에서 비롯됩니다. Qwen 3.5‑35B‑A3B 사양의 주요 내용은 다음과 같습니다:
| Feature (특징) | Detail (세부 사항) |
|---|---|
| Parameter Efficiency | 총 35 B 파라미터 중, 토큰당 3 B만 활성화됩니다. |
| Expert Diversity | MoE 레이어에 256 experts가 존재하며, 토큰당 8개의 전문가와 1개의 공유 전문가가 라우팅되어 추론 지연 시간을 감소시킵니다. |
| Near‑Lossless Quantization | 4‑bit 가중치를 사용해 높은 정확도를 유지하면서 로컬 배포를 위한 메모리 사용량을 크게 줄입니다. |
| Base Model Release | Alibaba는 Qwen 3.5‑35B‑A3B‑Base 모델을 인스트럭션 튜닝된 변형과 함께 오픈소스했습니다. |
제품: 먼저 “생각”하는 인텔리전스
Qwen 3.5는 기본 “Thinking Mode”(생각 모드) 를 도입합니다. 최종 답변을 내보내기 전에 모델은 “ 태그로 감싼 내부 추론 체인을 생성하여 복잡한 논리를 풀어냅니다.
| 모델 | 대상 하드웨어 | 컨텍스트 길이 | 주요 특징 |
|---|---|---|---|
| Qwen 3.5‑27B | 고효율 GPU | > 800 K 토큰 | 저자원 환경에 최적화됨. |
| Qwen 3.5‑Flash | 알리바바 클라우드 호스팅 | 1 M + 토큰 (기본) | 프로덕션 등급, 공식 도구 포함. |
| Qwen 3.5‑122B‑A10B | 서버급 GPU (80 GB VRAM) | 1 M + 토큰 | 세계 최대 프런티어 모델과의 격차를 메움. |
벤치마크 결과는 35B‑A3B 모델이 더 큰 이전 모델(예: Qwen‑3‑235B) 및 독점 GPT‑5‑mini와 Claude Sonnet 4.5를 지식(MMMLU) 및 시각 추론(MMMU‑Pro)에서 능가함을 보여줍니다.

가격 및 API 통합
가중치를 직접 호스팅하지 않으려는 사용자를 위해 Alibaba Cloud Model Studio는 Qwen 3.5‑Flash에 대한 API를 다음 요금으로 제공합니다:
| 작업 | 가격 (1 M 토큰당) |
|---|---|
| 입력 | $0.10 |
| 출력 | $0.40 |
| 캐시 생성 | $0.125 |
| 캐시 읽기 | $0.01 |
| 툴 호출 – 웹 검색 | $10 per 1 000 calls |
| 툴 호출 – 코드 인터프리터 | 무료 (기간 한정 제공) |
다른 주요 LLM API와의 비용 비교
| 모델 | 입력 | 출력 | 총 비용* | 출처 |
|---|---|---|---|---|
| Qwen 3 Turbo | $0.05 | $0.20 | $0.25 | Alibaba Cloud |
| Qwen 3.5‑Flash | $0.10 | $0.40 | $0.50 | Alibaba Cloud |
| DeepSeek‑Chat (v3.2‑Exp) | $0.28 | $0.42 | $0.70 | DeepSeek |
| DeepSeek‑Reasoner (v3.2‑Exp) | $0.28 | $0.42 | $0.70 | DeepSeek |
| Grok 4.1 Fast (reasoning) | $0.20 | $0.50 | $0.70 | xAI |
| Grok 4.1 Fast (non‑reasoning) | $0.20 | $0.50 | $0.70 | xAI |
*총 비용 = 입력 + 출력 (1 M 토큰당).
Qwen 3.5‑Flash는 따라서 전 세계 LLM API 중 가장 저렴한 편에 속합니다.
모든 정보는 2026년 2월 28일 현재 기준입니다.
모델 가격 개요
| Model | Input $ / 1K tokens | Output $ / 1K tokens | Total $ / 1K tokens* | Provider |
|---|---|---|---|---|
| MiniMax M2.5 | 0.15 | 1.20 | 1.35 | MiniMax |
| MiniMax M2.5‑Lightning | 0.30 | 2.40 | 2.70 | MiniMax |
| Gemini 3 Flash Preview | 0.50 | 3.00 | 3.50 | |
| Kimi‑k2.5 | 0.60 | 3.00 | 3.60 | Moonshot |
| GLM‑5 | 1.00 | 3.20 | 4.20 | Z.ai |
| ERNIE 5.0 | 0.85 | 3.40 | 4.25 | Baidu |
| Claude Haiku 4.5 | 1.00 | 5.00 | 6.00 | Anthropic |
| Qwen3‑Max (2026‑01‑23) | 1.20 | 6.00 | 7.20 | Alibaba Cloud |
| Gemini 3 Pro (≤200K) | 2.00 | 12.00 | 14.00 | |
| GPT‑5.2 | 1.75 | 14.00 | 15.75 | OpenAI |
| Claude Sonnet 4.5 | 3.00 | 15.00 | 18.00 | Anthropic |
| Gemini 3 Pro (>200K) | 4.00 | 18.00 | 22.00 | |
| Claude Opus 4.6 | 5.00 | 25.00 | 30.00 | Anthropic |
| GPT‑5.2 Pro | 21.00 | 168.00 | 189.00 | OpenAI |
*Total = 입력 + 출력 비용 (1 K 토큰당, 소수점 둘째 자리까지 반올림).
기업 기술 리더 및 의사결정자를 위한 의미
Qwen 3.5 Medium Models의 출시와 함께, 한때 자금이 풍부한 연구소만이 할 수 있었던 빠른 반복과 파인‑튜닝이 이제 많은 비‑기술 기업에서도 온‑프레미스 개발이 가능해졌습니다. 이는 대규모 자본 지출 없이도 정교한 AI를 활용할 수 있게 해줍니다.
조직 전반에 걸쳐 이 아키텍처는 데이터 처리 및 보안 방식을 혁신합니다. 방대한 문서 저장소나 시간 단위 비디오를 로컬에서 ingest할 수 있는 능력은 제3자 API의 프라이버시 위험 없이도 깊이 있는 기관 분석을 가능하게 합니다.
전용 방화벽 안에서 이러한 특화된 Mixture‑of‑Experts 모델을 실행함으로써, 조직은 데이터에 대한 주권적 통제를 유지하면서도 네이티브 “thinking” 모드와 공식 툴‑콜링 기능을 활용해 보다 신뢰성 높고 자율적인 에이전트를 구축할 수 있습니다.
Hugging Face에서 초기 채택자들은 특히 이전에 가장 큰 폐쇄형 모델만이 경쟁할 수 있었던 에이전시 시나리오에서 모델이 “격차를 좁히는” 능력을 크게 칭찬했습니다.
원시 규모보다 아키텍처 효율성에 중점을 둔 이번 변화는 AI 통합이 비용 효율적이고, 안전하며, 변화하는 운영 요구에 발맞춰 민첩하게 유지될 수 있도록 보장합니다.