DeepSeek V4: 실제로 작동하는 백만 토큰 컨텍스트
Source: Dev.to
개요
대부분의 장기‑컨텍스트 모델은 사용 사례를 찾지 못한 벤치마크에 불과합니다. DeepSeek V4는 판을 뒤집습니다—1 백만 토큰 컨텍스트를 사양서의 체크박스가 아니라 실제로 배포할 수 있는 운영 현실로 제공합니다.
돌파구는 단순히 컨텍스트 길이 때문이 아니라, DeepSeek가 추론 비용을 크게 늘리지 않고 이를 달성한 방법에 있습니다.
아키텍처
표준 어텐션을 사용한 경우 1 M‑토큰 구현은 시퀀스당 83.9 GiB의 KV 캐시가 필요합니다—GPU 메모리에 대한 서비스 거부 공격과도 같습니다. DeepSeek의 해결책은 하이브리드 어텐션 아키텍처로, KV 캐시를 거의 9배 압축합니다:
- 레이어 간 공유 키‑값 벡터
- 압축된 KV 스트림
- 압축 토큰에 대한 희소 어텐션
근접 컨텍스트를 위한 슬라이딩 윈도우는 128 토큰으로 유지되며, 메모리 폭탄 없이 지역 일관성을 확보합니다.
메모리 절감
- 1 M 토큰에서 V4는 9.62 GiB만 필요하고, 83.9 GiB와는 큰 차이를 보입니다.
- FP4 인덱스 캐시와 FP8 어텐션을 사용하면 추가로 약 2배 감소합니다.
- 이 차이 덕분에 모델을 8×H100 클러스터가 아니라 단일 노드에서 실행할 수 있습니다.
변형 및 가격
| 변형 | 파라미터 (전체) | 토큰당 활성 | KV 메모리 감소 | 가격 (백만 토큰당) |
|---|---|---|---|---|
| Pro | 1.6 T | 49 B | ~10 % of baseline | $1.74 / $3.48 |
| Flash | 284 B / 13 B (active) | 13 B | ~10 % of baseline | $0.14 / $0.28 |
두 변형 모두 동일한 어텐션 아키텍처를 사용하며, KV 메모리를 10 % 수준으로 낮추면서 1 M‑토큰 컨텍스트 윈도우를 지원합니다.
사용 사례
에이전트 워크플로우는 컨텍스트에 대한 스트레스 테스트입니다:
- 코딩 에이전트가 300 K 라인 규모의 코드베이스를 컨텍스트에 유지.
- 연구 에이전트가 50편 논문의 인용을 추적.
- 고객 서비스 에이전트가 1년 치 상호작용 기록을 보유.
이들은 틈새가 아니라, 컨텍스트 제한으로 인해 지속적인 검색, 재정렬, 상태 파편화가 강제되던 에이전트 시스템의 핵심 가치 제안입니다. DeepSeek V4의 압축 어텐션을 사용하면 상태를 상주시킬 수 있어—턴 중에 벡터 데이터베이스로 라운드‑트립하거나 근사치를 적용할 필요 없이 추론 시 전체 컨텍스트를 활용할 수 있습니다.
벤치마크
독립적인 벤치마크에서 V4 Pro는 에이전트 작업에서 Kimi K2.6, GLM‑5.1, MiniMax‑M2.7 등을 앞서며 오픈‑웨이트 모델 중 선두에 섰습니다. Flash 변형은 12배 낮은 비용으로 경쟁력을 유지합니다.
배포 및 호환성
- 추론 처리량은 학습된 해시 라우팅(2021년 ParlAI 작업에서 파생, V2 이후 MoE 반복을 통해 정제) 덕분에 부하가 있어도 안정적입니다.
- Day‑zero vLLM 통합, Apple Silicon용 MLX 양자화, 그리고 혼합 FP4/FP8 환경에서 8 × B200 GPU에 맞는 체크포인트 제공.
- MIT 라이선스 하에 베이스와 인스트럭트 버전이 공개되며, Huawei Ascend 칩에 대한 Day‑one 지원 포함.
- Blackwell, MI355, 일반 소비자용 Mac에서도 양자화를 통해 실행 가능할 정도로 포터블합니다.
제한 사항
- 장기‑컨텍스트 검색 시 환각 비율이 높으며, Omniscience 벤치마크에서 약 **94 %**에 달합니다.
- 추론 작업에서 토큰 소모가 상당합니다: V4 Pro는 AA Index에서 190 M 출력 토큰을 사용하고, Flash는 240 M을 사용합니다.
이러한 트레이드‑오프는 인프라가 실제 실험을 지원하게 되면서 이제는 경험적으로 테스트할 수 있습니다.
결론
DeepSeek V4는 컨텍스트 윈도우가 지속적인, 깊은 컨텍스트 에이전트(코드 리뷰, 법률 분석, 연구 종합 등)에게 더 이상 병목이 되지 않는 최초의 오픈‑웨이트 모델입니다—컨텍스트가 “곧 제공될 예정”에서 “이미 제공됨”으로 전환되었습니다. 남은 과제는 최적화입니다.