DeepSeek, 최첨단 모델과의 격차를 ‘메우는’ 새로운 AI 모델 미리 공개
Source: TechCrunch
Overview
중국 AI 연구소 DeepSeek은 최신 대형 언어 모델인 DeepSeek V4의 두 가지 프리뷰 버전을 출시했습니다. 이는 지난해 출시된 V3.2 모델에 대한 기대가 컸던 업데이트이며, AI 업계를 강타한 R1 추론 모델도 함께 제공됩니다.
Model Details
- Architecture: DeepSeek V4 Flash와 V4 Pro 모두 혼합 전문가(MoE) 모델이며, 1 백만 토큰의 컨텍스트 윈도우를 지원해 대규모 코드베이스나 문서를 프롬프트에 사용할 수 있습니다. MoE 접근 방식은 작업당 일부 파라미터만 활성화해 추론 비용을 낮춥니다.
- Parameter Counts:
- V4 Pro: 총 1.6 조 파라미터(활성 파라미터 490억) – 현재 사용 가능한 가장 큰 오픈 웨이트 모델로, Moonshot AI의 Kimi K 2.6(1.1 조), MiniMax의 M1(4560억)를 능가하며 DeepSeek V3.2(6710억)의 두 배 이상 규모입니다.
- V4 Flash: 총 2840억 파라미터(활성 파라미터 130억).
두 모델 모두 텍스트 전용이며, 오디오, 비디오, 이미지까지 다루는 많은 폐쇄형 경쟁 모델과는 차별화됩니다.
Performance
- Efficiency: 아키텍처 개선으로 V4 모델은 DeepSeek V3.2보다 더 효율적이고 성능이 뛰어납니다.
- Reasoning Benchmarks: DeepSeek은 V4‑Pro‑Max 모델이 추론 벤치마크에서 오픈소스 경쟁 모델들을 앞서며, 특정 작업에서는 OpenAI의 GPT‑5.2와 Gemini 3.0 Pro를 능가한다고 주장합니다.
- Coding Benchmarks: 코딩 대회 벤치마크에서는 두 V4 모델이 “GPT‑5.4에 필적한다”고 평가되었습니다.
- Knowledge Tests: 지식 중심 평가에서는 OpenAI의 GPT‑5.4와 Google의 Gemini 3.1 Pro와 같은 최첨단 모델에 약간 뒤처지며, 최첨단 프론티어 모델보다 3~6개월 정도 뒤처진 개발 궤적을 보입니다.
Pricing
-
V4 Flash
- 입력 토큰 백만당 $0.14
- 출력 토큰 백만당 $0.28
-
V4 Pro
- 입력 토큰 백만당 $0.145
- 출력 토큰 백만당 $3.48
두 가격대 모두 GPT‑5.4 Nano, Gemini 3.1 Flash, GPT‑5.4 Mini, Claude Haiku 4.5, Gemini 3.1 Pro, GPT‑5.5, Claude Opus 4.7 등과 비교해 경쟁력 있는 가격을 제시합니다.
Controversy
이번 출시와 동시에 미국은 중국이 수천 개의 프록시 계정을 이용해 미국 AI 연구소의 지적 재산을 산업 규모로 탈취하고 있다고 비난했습니다. DeepSeek은 Anthropic과 OpenAI로부터 **“distilling”(본질적으로 모델을 복제)했다는 혐의를 받고 있습니다.
- 비난 세부 내용: BBC report
- Anthropic의 주장: TechCrunch article
References
- DeepSeek V4 collection on Hugging Face: https://huggingface.co/collections/deepseek-ai/deepseek-v4
- R1 reasoning model coverage: https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-certain-benchmarks/
- Accusation of IP theft: https://www.bbc.com/news/articles/cpqxgxx9nrqo
- Anthropic’s distillation allegation: https://techcrunch.com/2026/02/23/anthropic-accuses-chinese-ai-labs-of-mining-claude-as-us-debates-ai-chip-exports/