[Paper] 少即是多:8-bit Quantization 提升 Large Language Models 的 Continual Learning

发布: (2025年12月22日 GMT+8 08:51)
7 min read
原文: arXiv

Source: arXiv - 2512.18934v1

概览

本文调查了一种令人惊讶的现象:低精度量化(尤其是 8‑位 INT8)实际上可以提升大语言模型(LLM)的持续学习能力。通过系统性地测试 FP16、INT8 和 INT4 精度以及不同的回放缓冲区大小,作者展示了量化模型在保留先前知识方面表现更佳,甚至在后续任务(如代码生成)上超越全精度基线。

关键贡献

  • 精度与持续学习的实证研究:在一系列 NLU、数学和代码任务上基准测试 FP16、INT8 和 INT4,揭示在第一个任务之后出现一致的性能逆转。
  • 量化作为隐式正则化:提出低位量化引入的噪声通过防止对新任务梯度的过拟合来缓解灾难性遗忘。
  • 重放缓冲区效率分析:证明 极小 的重放缓冲区(低至训练数据的 0.1 %)显著提升所有精度下的保持能力,且量化模型所需的重放量比 FP16 更少即可达到相似或更好的效果。
  • 实用部署指南:推荐 INT8 作为在推理速度、内存占用和持续学习稳定性之间的最佳平衡点;建议针对不同任务类型的缓冲区大小(NLU 为 1‑2 %,数学/代码为 5‑10 %)。
  • 开源可复现性:在链接的 GitHub 仓库中提供完整的训练脚本和评估流水线。

方法论

  1. 模型与任务 – 作者对一个预训练的大语言模型(≈2‑3 B 参数)进行顺序微调,涉及三个下游任务:

    • 自然语言理解(NLU)– 分类式任务。
    • 数学问题求解(Math)。
    • 代码生成(Code)。
  2. 精度设置 – 对于每种任务顺序,同一模型在三种数值格式下运行:

    • FP16(标准半精度)。
    • INT8(8 位对称量化)。
    • INT4(4 位量化)。
  3. 回放缓冲区 – 将一小部分先前见过的示例存储并混入当前任务的训练数据。缓冲区大小从 0 %(无回放)到原始数据集的 10 % 不等。

  4. 评估 – 每完成一个任务后,对模型进行评估:

    • 前向准确率:刚学习任务的准确率。
    • 保持准确率:所有之前任务的准确率。
  5. 分析 – 作者比较准确率曲线,计算“可塑性‑保持权衡”,并进行消融实验以分离量化噪声的影响。

Results & Findings

精度初始 NLU 准确率最终任务前向准确率(代码)数学后保留率(NLU)
FP1674.44 %20 %45 %
INT8~71 %35 % (≈+15 % over FP16)65 % (≈+20 % over FP16)
INT4~68 %40 % (≈+20 % over FP16)60 %
  • 量化模型在首个任务上略有落后(由于容量降低,属预期),但 在后续任务上超出 FP16 8‑15 %
  • INT8 始终提供最佳平衡:它保留了大部分首任务性能,同时在后续任务上带来最大的提升。
  • 仅 0.1 % 的回放缓冲区 就能将所有精度下的 NLU 保留率从 45 % 提升至 65 %,证实即使是极小的复习也能显著抑制遗忘。
  • 噪声假设:随机舍入和量化误差充当正则化器,平滑梯度更新,防止模型灾难性地覆盖早期表征。

实际意义

  • 在不断演化的环境中部署 LLM(例如学习新意图的聊天机器人、适应新 API 的代码助手),可以使用 INT8‑量化模型,既不牺牲性能,甚至常常提升长期表现。
  • 受限内存的边缘设备受益于 4‑8× 的模型体积缩减,同时仍能支持持续更新。
  • 降低回放开销:团队只需保存极少量的历史数据(甚至是合成样本),仍能实现强记忆保持,降低存储成本和隐私风险。
  • 训练流水线:加入量化感知微调步骤和轻量回放缓冲区即可获得收益——无需复杂的正则化技巧或架构改动。
  • 推理速度:在现代 GPU/TPU 上,INT8 推理通常快 2‑3×,意味着对持续从用户反馈学习的服务提供更快的响应时间。

限制与未来工作

  • 任务范围:实验聚焦于三个相对同质的任务(NLU、数学、代码)。对视觉‑语言或多模态流的泛化尚未测试。
  • 模型规模:结果展示在一个 2‑3 B 参数的 LLM 上;尚不清楚相同的动态是否适用于更大的(≥30 B)模型。
  • 量化粒度:仅探索了对称的 per‑tensor 量化;混合精度或 per‑channel 方案可能产生不同的权衡。
  • 理论依据:“隐式正则化”假设虽有实证支持,但缺乏形式化分析;未来工作可对噪声引起的梯度动力学进行建模。
  • 回放缓冲区生成:研究使用了从原始数据的随机抽样;探索合成或生成式回放可能进一步降低存储需求。

总体而言,本文颠覆了长期存在的假设——更高精度总是更好——并提供了一套务实的方案,用于构建高效、持续学习的 LLM,以便在真实世界中部署。

作者

  • Michael S. Zhang
  • Rishi A. Ruia
  • Arnav Kewalram
  • Saathvik Dharmapuram
  • Utkarsh Sharma
  • Kevin Zhu

论文信息

  • arXiv ID: 2512.18934v1
  • 分类: cs.LG, cs.AI
  • 出版日期: 2025年12月22日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »