Nvidia의 새로운 기술, 정확도 손실 없이 LLM 추론 비용을 8배 절감

발행: 3일 전 (2026년 2월 13일 오전 07:00 GMT+9)

14 분 소요

Source: VentureBeat

위의 링크에 있는 전체 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다. (코드 블록이나 URL은 그대로 유지됩니다.)

Dynamic Memory Sparsification (DMS)

Researchers at NVIDIA have introduced Dynamic Memory Sparsification (DMS), a technique that can cut the memory cost of large‑language‑model (LLM) reasoning by up to 8×.

What DMS Does

Compresses the KV cache – the temporary key‑value memory that LLMs generate while processing prompts and reasoning through problems or documents.
Discards redundant cache entries while preserving (and sometimes even improving) the model’s reasoning performance.

Why It Matters

Longer “thinking” time – LLMs can explore more solution paths without hitting memory limits.
No speed penalty – the compression is efficient enough that inference speed remains unchanged.

Key Takeaway

DMS shows that substantial memory savings are possible without degrading model intelligence, addressing a major bottleneck in scaling LLM reasoning.

Reference

Paper: Dynamic Memory Sparsification – arXiv:2506.05345

Source: …

추론의 병목 현상

LLM은 연쇄 사고(chain‑of‑thought) 토큰을 생성함으로써 복잡한 작업에서 성능을 향상시킵니다—즉, 최종 답변에 도달하기 전에 자신의 추론 단계를 글로 적어 내려가는 것입니다. 추론 시 스케일링 기법은 모델에 더 큰 토큰 예산을 제공하거나 여러 잠재적 추론 경로를 병렬로 탐색하도록 함으로써 이를 활용합니다.

성능 저하의 원인

모델이 더 많은 토큰을 생성하면 키‑값(KV) 캐시가 쌓입니다.
KV 캐시는 추론 체인의 길이에 선형적으로 증가하여 대량의 GPU 메모리를 차지합니다.
메모리 압력이 높아지면 하드웨어가 실제 연산보다 메모리에서 데이터를 읽는 데 더 많은 시간을 소비하게 되며, 이는:
- 생성 속도를 늦추고 지연 시간을 증가시킵니다.
- 동시 사용자 수를 제한합니다—VRAM이 부족하면 시스템이 충돌하거나 매우 느려질 수 있습니다.

“문제는 단순히 하드웨어 양이 아니라, 같은 비용으로 100개의 추론 스레드를 처리하느냐 800개의 추론 스레드를 처리하느냐에 달려 있습니다.”
— Piotr Nawrot, Senior Deep Learning Engineer, Nvidia (VentureBeat 인용)

문제 완화를 위한 이전 시도

접근 방식	작동 원리	단점
휴리스틱 기반 삭제 (예: 슬라이딩 윈도우)	KV 캐시에서 가장 최근 토큰만 유지하고 오래된 토큰을 버립니다.	중요한 정보를 삭제할 수 있어 정확도가 떨어질 수 있습니다.
표준 삭제 휴리스틱	간단한 규칙에 따라 “오래되고 사용되지 않은” 토큰을 선택해 제거합니다.	모델 내부 메커니즘을 근사에 의존하므로 잘못된 답변을 초래할 수 있습니다.
느린 메모리로 페이징	사용되지 않는 KV 캐시 일부를 호스트 RAM이나 SSD로 오프로드합니다.	지속적인 스와핑으로 지연이 발생해 실시간 애플리케이션이 느려집니다.

참고 문헌

Chain‑of‑thought – VentureBeat: Don’t believe reasoning models? Chains of thought says Anthropic
KV cache – VentureBeat: Mixture of Recursions delivers 2× faster inference – here’s how to implement it

Source: …

동적 메모리 희소화 (DMS) 상세 개요

Dynamic Memory Sparsification (DMS) 은 기존 대형 언어 모델(LLM)에 자신의 메모리를 지능적으로 관리하도록 레트로핏합니다. 토큰 삭제에 고정 규칙을 적용하는 대신, DMS는 모델이 미래 추론에 필수적인 토큰과 버릴 수 있는 토큰을 구별하도록 학습합니다.

“중요성을 단순히 추측하는 것이 아니라, 모델의 최종 출력 분포를 명시적으로 보존하는 정책을 학습한다.” — Nawrot

DMS 작동 방식

단계	설명
1️⃣ 모델 선택	표준 사전 학습된 LLM(예: Llama 3, Qwen 3)으로 시작합니다.
2️⃣ 가중치 고정	모델 파라미터 대부분을 고정시켜(LoRA와 유사) 학습 비용을 낮춥니다.
3️⃣ “keep/evict” 헤드 추가	어텐션 레이어의 뉴런을 재활용해 각 토큰에 대해 keep 또는 evict 이진 신호를 출력하도록 합니다.
4️⃣ 경량 정책 학습	짧은 파인튜닝(≈ 1 000 스텝)을 수행해 토큰 중요성을 예측하는 정책을 모델이 학습하도록 합니다.
5️⃣ 배포	결과 모델은 표준 커널을 사용하며, 커스텀 하드웨어 없이 기존 추론 스택에 바로 삽입할 수 있습니다.

핵심 포인트: 모델을 처음부터 학습시킬 필요가 없으며, 이는 비용 면에서 감당하기 어려운 작업이 됩니다.

지연 삭제 (Delayed Eviction)

표준 희소화는 토큰이 중요하지 않다고 판단되는 즉시 삭제하지만, 모델이 해당 토큰의 컨텍스트를 통합할 짧은 시간이 필요할 수 있어 위험합니다. DMS는 지연 삭제를 도입합니다:

삭제 플래그를 토큰에 지정합니다.
짧은 버퍼(수백 스텝) 안에 토큰을 유지합니다.
모델이 남아 있는 유용한 정보를 추출해 현재 컨텍스트에 병합하도록 허용합니다.
윈도우가 만료되면 KV 캐시에서 토큰을 삭제합니다.

“‘지연 삭제’ 메커니즘은 모든 토큰이 단순히 ‘중요(영원히 유지)’하거나 ‘쓸모없음(즉시 삭제)’이 아니라는 점에서 핵심입니다. 많은 토큰이 어느 정도 정보를 가지고 있지만 메모리 슬롯을 차지할 만큼은 아니기 때문에 중간 단계가 필요합니다.” — Nawrot.

성능 하이라이트

학습 비용: 파인튜닝 1 000 스텝 정도(원래 사전 학습 대비 극히 일부).
속도: Qwen‑3‑8B 모델을 단일 DGX H100에서 몇 시간 안에 레트로핏 가능.
호환성: 표준 커널 사용; 커스텀 하드웨어나 대규모 소프트웨어 개편 불필요.

시각적 개요

Dynamic Memory Sparsification illustration

요약

DMS는 기존 LLM의 컨텍스트 윈도우를 확장하기 위한 경량·레트로핏 가능한 솔루션을 제공합니다. 토큰 중요도 정책을 학습하고 지연 삭제를 적용함으로써, 핵심 정보를 보존하면서 메모리를 해제합니다. 이 모든 과정을 새로운 모델을 처음부터 학습시키는 거대한 비용 없이 수행할 수 있습니다.

DMS in Action

기술을 검증하기 위해 연구진은 Dynamic Memory Scaling (DMS) 를 여러 추론 모델에 적용했으며, 여기에는 Qwen‑R1 시리즈 (DeepSeek R1에서 증류)와 Llama 3.2 가 포함됩니다. 이들은 AIME 24 (수학), GPQA Diamond (과학), 그리고 LiveCodeBench (코딩) 와 같은 어려운 벤치마크에서 모델을 평가했습니다.

주요 결과

벤치마크	모델 (DMS 적용)	기준 모델 (DMS 미적용)	Δ 점수 / 처리량
AIME 24 (수학)	Qwen‑R1 32B	동일 메모리‑대역폭 예산의 표준 Qwen‑R1 32B	+12.0 점
Needle‑in‑a‑Haystack (장문 컨텍스트 검색)	DMS 적용 변형	표준 모델	검색 정확도 향상
Enterprise throughput (Qwen‑3 8B)	DMS 적용	Vanilla Qwen‑3 8B	≈ 5배 높은 처리량 (동일 정확도)

DMS가 도움이 되는 이유

더 깊고 넓은 추론: 캐시를 압축함으로써 같은 메모리와 연산 예산 내에서 모델이 더 많이 “생각”할 수 있습니다.
깨끗한 컨텍스트: 능동적인 메모리 관리가 잡음 토큰의 누적을 방지해 장문 컨텍스트 작업에 유리합니다.
하드웨어 효율성: 작은 메모리 캐시는 GPU 페치 지연을 감소시켜 쿼리 처리 속도를 높이고 하드웨어 비용을 낮춥니다.

시각적 요약

DMS는 동일한 연산 예산에서 베어본 LLM 대비 추론 작업 성능을 향상시킵니다 (출처: arXiv)

기업 배포에 대한 시사점

처리량 증가: 단일 서버가 5배 더 많은 초당 쿼리를 품질 저하 없이 처리할 수 있습니다.
비용 절감: 메모리 대역폭 및 GPU 유휴 시간이 감소해 운영 비용이 낮아집니다.
확장성: 작은 캐시 풋프린트가 GPU당 모델 밀도를 높여 기존 하드웨어에서 더 큰 규모의 배포가 가능하게 합니다.

전반적으로 DMS는 지능형 메모리 관리가 모델 성능과 시스템 효율성 모두에서 상당한 이점을 제공할 수 있음을 보여주며, 압축이 장문 컨텍스트 이해에 해를 끼친다는 기존 인식을 뒤흔듭니다.

메모리의 미래

Nvidia는 KV‑Press 라이브러리의 일부로 DMS를 출시했습니다. 기업이 DMS를 시작하는 방법에 대해, Nawrot는 진입 장벽이 낮다고 강조했습니다:

“최소 실행 가능한 인프라는 표준 Hugging Face 파이프라인이며 — 맞춤형 CUDA 커널이 필요하지 않습니다,”
— Nawrot, 이 코드는 표준 FlashAttention과 완전히 호환된다고 언급했습니다.

주요 요점

낮은 진입 장벽 – 기존 Hugging Face 파이프라인을 사용합니다; 맞춤형 CUDA 커널이 필요 없습니다.
호환성 – FlashAttention 및 DeepSeek 모델에 사용되는 Multi‑Head Latent Attention (MLA)와 같은 최신 아키텍처와 바로 작동합니다.
미래 비전 – DMS는 AI 스택의 별도이고 지능적인 레이어로 간주되어 보다 효율적인 메모리 관리가 가능하게 합니다.

앞으로의 전망

MLA와의 통합 – DMS와 MLA를 결합하면 효율성 향상이 더욱 크게 기대됩니다.
에이전트 시스템 확장 – 기업이 단순 챗봇에서 복잡하고 추론이 무거운 에이전트로 전환함에 따라 추론 비용이 주요 관심사가 됩니다.
지속 가능한 확장 – DMS와 같은 기술은 이러한 기능을 지속 가능하게 확장할 수 있는 경로를 제공합니다.

“우리는 가능한 것의 표면을 겨우 긁어냈을 뿐입니다,”라고 Nawrot가 말했습니다. “추론 시간 확장은 앞으로도 계속 진화할 것입니다.”