Nvidia 的新技术将 LLM 推理成本降低 8 倍且不失准确性

发布: (2026年2月13日 GMT+8 06:00)
11 分钟阅读

Source: VentureBeat

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保持原有的格式、Markdown 语法以及技术术语。

动态内存稀疏化 (DMS)

DMS 的作用

  • 压缩 KV 缓存 – LLM 在处理提示、推理问题或文档时生成的临时键‑值记忆。
  • 丢弃冗余的缓存条目,同时保持(有时甚至提升)模型的推理性能。

为什么重要

  • 更长的“思考”时间 – LLM 可以在不受内存限制的情况下探索更多解答路径。
  • 无速度惩罚 – 压缩足够高效,推理速度保持不变。

关键要点

DMS 表明在不降低模型智能的前提下可以实现显著的内存节省,解决了扩展 LLM 推理的主要瓶颈。

参考文献

推理的瓶颈

LLMs 通过生成 chain‑of‑thought 令牌来提升在复杂任务上的表现——本质上是在得出最终答案之前把推理步骤写出来。推理时的扩展技术利用这一点,为模型提供更大的预算来生成这些“思考”令牌,或并行探索多条可能的推理路径。

为什么会影响性能

  • 随着模型生成更多令牌,它会构建一个 键‑值 (KV) 缓存
  • KV 缓存会 线性 随着推理链的长度增长,占用大量 GPU 显存。
  • 当显存压力升高时,硬件花在 从内存读取数据 的时间会超过实际计算时间,这会:
    • 放慢生成速度并增加延迟。
    • 限制并发用户数量——显存耗尽会导致系统崩溃或性能降至爬行状态。

“问题不仅在于硬件数量;更在于你的基础设施是以相同成本处理 100 条推理线程,还是 800 条线程。”
Piotr Nawrot,Nvidia 高级深度学习工程师(VentureBeat 引用)

以往的缓解尝试

方法工作原理缺点
基于启发式的驱逐(例如滑动窗口)只保留 KV 缓存中最近的令牌,丢弃较旧的令牌。可能删除关键信息,导致准确率下降。
标准驱逐启发式根据简单规则选择“旧且未使用”的令牌进行移除。依赖对模型内部机制的近似,可能导致错误答案。
分页到慢速内存将未使用的 KV 缓存部分转移到主机 RAM 或 SSD。持续的交换会引入延迟,使实时应用变得迟缓。

参考文献

  1. Chain‑of‑thought – VentureBeat: Don’t believe reasoning models? Chains of thought says Anthropic
  2. KV cache – VentureBeat: Mixture of Recursions delivers 2× faster inference – here’s how to implement it

动态记忆稀疏化(DMS)详细概述

动态记忆稀疏化(DMS) 为现有的大语言模型(LLM)增添 智能管理自身记忆 的能力。它不再使用固定的 token 删除规则,而是训练模型识别哪些 token 对后续推理至关重要,哪些可以被丢弃。

“它不仅仅是猜测重要性;它学习了一套策略,显式地保留模型最终输出分布,” — Nawrot

DMS 工作原理

步骤描述
1️⃣ 模型选择从标准的预训练 LLM 开始(例如 Llama 3、Qwen 3)。
2️⃣ 冻结权重冻结模型大部分参数(类似 LoRA),以保持训练成本低廉。
3️⃣ 添加 “keep/evict” 头在注意力层中重新利用神经元,输出每个 token 的二进制信号:保留驱逐
4️⃣ 训练轻量策略进行一次短期微调(≈ 1 000 步),让模型学习预测 token 重要性的策略。
5️⃣ 部署生成的模型使用标准内核,可直接嵌入现有推理栈,无需定制硬件。

关键点: 该过程 不需要 从头训练模型,后者的成本将难以承受。

延迟驱逐

传统稀疏化会在 token 被判定为不重要的瞬间立即删除,这可能有风险,因为模型仍可能需要一个短暂的窗口来整合该 token 的上下文。DMS 引入 延迟驱逐

  1. 标记 token 为待删除。
  2. 在短期缓冲区(几百步)中保留它。
  3. 让模型 提取 任何剩余的有用信息并合并到当前上下文。
  4. 在窗口结束后 将 token 从 KV 缓存中驱逐。

“‘延迟驱逐’机制至关重要,因为并非所有 token 都是‘重要’(永久保留)或‘无用’(立即删除)。很多 token 介于两者之间——它们携带一定信息,但不足以占用整个记忆槽位,” — Nawrot

性能亮点

  • 训练成本: 大约 1 000 步微调(仅占原始预训练计算量的极小部分)。
  • 速度: 在单台 DGX H100 上,Qwen‑3‑8B 模型的改造可在 数小时 内完成。
  • 兼容性: 使用标准内核;无需定制硬件或大规模软件重写。

可视化概览

Dynamic Memory Sparsification illustration

结论

DMS 提供了一种 轻量、可改造 的方案,用于扩展现有 LLM 的上下文窗口。通过学习 token 重要性策略并采用延迟驱逐,它在释放记忆空间的同时保留关键信息,且无需为全新模型的训练付出巨大的成本。

DMS 实际应用

为了验证该技术,研究人员将 动态内存缩放 (Dynamic Memory Scaling, DMS) 应用于多个推理模型,包括 Qwen‑R1 系列(由 DeepSeek R1 蒸馏而来)和 Llama 3.2。他们在诸如 AIME 24(数学)、GPQA Diamond(科学)以及 LiveCodeBench(编码)等具有挑战性的基准上评估了这些模型。

关键发现

基准模型(使用 DMS)基线(无 DMS)Δ 分数 / 吞吐量
AIME 24(数学)Qwen‑R1 32B标准 Qwen‑R1 32B(相同内存带宽预算)+12.0 分
Needle‑in‑a‑Haystack(长上下文检索)启用 DMS 的变体标准模型检索准确率更高
企业吞吐量(Qwen‑3 8B)启用 DMS原始 Qwen‑3 8B≈ 5× 更高的吞吐量(相同准确率)

DMS 的作用机制

  • 更深更广的推理:通过压缩缓存,模型能够在相同的内存和计算预算下进行更广泛的“思考”。
  • 更清晰的上下文:主动的内存管理防止噪声 token 的累积,有利于长上下文任务。
  • 硬件效率提升:更小的内存缓存降低 GPU 读取延迟,从而实现更快的查询处理和更低的硬件成本。

可视化概览

DMS improves model performance on reasoning tasks over vanilla LLMs for equal compute budget (source: arXiv)

对企业部署的意义

  • 吞吐量提升:单台服务器在不牺牲质量的前提下,可处理高达 的查询量。
  • 成本节约:降低的内存带宽需求和 GPU 空闲时间可减少运营支出。
  • 可扩展性:更小的缓存占用使每块 GPU 上可部署的模型密度更高,便于在现有硬件上进行更大规模的部署。

总体而言,DMS 证明了智能内存管理能够在模型性能和系统效率上带来显著提升,挑战了压缩必然损害长上下文理解的传统观点。

内存的未来

Nvidia 已在其 KV‑Press 库 中发布了 DMS。关于企业如何开始使用 DMS,Nawrot 强调进入门槛很低:

最低可行基础设施 是标准 Hugging Face 流水线——不需要自定义 CUDA 内核,”
— Nawrot,指出该代码完全兼容标准 FlashAttention

关键要点

  • 低进入门槛 – 使用现有的 Hugging Face 流水线;无需自定义 CUDA 内核。
  • 兼容性 – 开箱即用支持 FlashAttention 以及诸如 DeepSeek 模型中使用的 多头潜在注意力 (MLA) 等新架构。
  • 未来愿景 – DMS 被视为 AI 堆栈中的独立智能层,能够实现更高效的内存管理。

展望未来

  • 与 MLA 的集成 – 将 DMS 与 MLA 结合可能带来更大的效率提升。
  • 扩展代理系统 – 随着企业从简单聊天机器人转向复杂、推理密集的代理,推理成本成为主要关注点。
  • 可持续扩展 – 像 DMS 这样的技术为可持续扩展这些能力提供了路径。

“我们仅仅触及了可能性的表面,” Nawrot 说。“我们预计推理时的扩展将进一步发展。”

0 浏览
Back to Blog

相关文章

阅读更多 »

线性表示与叠加

随着大型语言模型(LLM)变得更大、更强大且更为普遍,机制可解释性(mechanistic interpretability)https://en.wikipedia.org/wiki/Mechanistic_interpretability——…