[Paper] 只有相对排名在权重聚类的大语言模型中重要

发布: (2026年3月19日 GMT+8 00:55)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.17917v1

Overview

论文 Only relative ranks matter in weight‑clustered large language models 表明,对于大规模语言模型,单个权重的精确数值远不如这些权重的相对顺序(排名)重要。通过将每个权重矩阵聚类为少量共享值,作者在无需任何再训练的情况下,将 Llama 3.1‑8B 和 SmolLM2‑135M 等模型压缩至仅 16–64 个不同的权重层级,同时保持大部分原始准确度。

关键贡献

  • Weight‑clustering compression: 将每个权重矩阵替换为通过 K‑means 获得的 K 个中心点,使每层的唯一值数量降低到 16–64。
  • Training‑free compression: 证明这种激进的量化可以直接使用,无需昂贵的微调。
  • Fine‑tuning centroids only: 表明仅更新聚类均值(中心点)即可在几乎不增加计算成本的情况下恢复 30‑40 % 的剩余精度损失。
  • Rank‑vs‑magnitude analysis: 在保持分配不变的情况下系统性随机化中心均值,揭示 打乱秩序 会灾难性地恶化困惑度,而保持秩序则几乎不影响性能。
  • Layer‑wise drift study: 确认 scale drift(全局尺度变化)是当大量层同时被扰动时导致崩溃的主要原因,并提出一个简单的仿射校正 ( w′ = a w + b , a > 0) 来保持秩序并缓解漂移。
  • New perspective on robustness: 将相对权重排序定位为压缩和模型稳定性的核心不变量,为保持秩序的正则化和诊断提供了新方向。

方法论

  1. Weight clustering – 对每个线性层,作者在原始权重值上运行 K‑means,并用最近的质心替换每个条目。质心数量 K 设为一个小常数(16–64)。
  2. Zero‑shot evaluation – 对聚类后的模型在标准语言模型基准(例如 WikiText‑103 的困惑度)上进行评估,且不进行任何额外训练。
  3. Centroid fine‑tuning – 仅将 K 个质心值视为可学习参数,并在少数 epoch 中更新,保持分配映射不变。
  4. Randomization experiments
    • Rank‑preserving: 在保持质心值顺序(秩)不变的情况下随机置换质心值。
    • Rank‑scrambling: 随机打乱质心值,破坏原有秩序。
      两者都保持全局统计量(均值、方差)不变。
  5. Progressive layer replacement – 将层逐个从原始替换为聚类后的层,测量误差的累积以及是尺度漂移还是秩失真占主导。
  6. Affine correction – 聚类后,对每层可选地应用线性变换(尺度 a > 0,偏移 b),以在保持秩的前提下重新对齐整体分布。

结果与发现

模型K(质心)零样本困惑度 Δ仅质心微调后 Δ保持秩的洗牌 Δ秩打乱 Δ
Llama 3.1‑8B32+3 %(≈ 可忽略)–30 % 相对于基线差距≈ 0 %(无影响)↑ × 10–100(数量级提升)
SmolLM2‑135M16+5 %–35 % 的差距≈ 0 %↑ × 50–200

Δ 表示相对于原始未压缩模型的困惑度变化。

  • 压缩有效:即使仅使用 16 个不同的权重层级,模型仍保留了大部分预测能力。
  • 质心微调成本低:仅更新每层几十个数值(质心)即可显著提升性能,所需 GPU 时间远低于全模型微调。
  • 秩顺序重要:破坏聚类的排序会导致困惑度急剧上升,证明模型依赖于哪些连接更强,而不是它们的精确数值。
  • 尺度漂移:当大量层同时被修改时,权重的整体尺度会漂移,导致性能崩溃。保持正比例(a > 0)的仿射校正可以显著延缓这种崩溃。

Source:

实际意义

  • 磁盘空间节省:在边缘设备或容器化服务上部署 LLM 成为可能;一个 8 B 模型的权重体积可减少约十倍。
  • 快速模型分发:团队可以共享压缩后的检查点,无需重新训练,从而加速协作与可复现性。
  • 低成本微调:仅更新中心向量即可在普通硬件上实现快速的领域适配(例如指令跟随的微调)。
  • 鲁棒性诊断:在量化或剪枝过程中监控秩保持情况可作为可靠性检查——若秩顺序发生变化,则预期会出现严重退化。
  • 硬件友好推理:更少的唯一权重值提升缓存局部性,并有望使用自定义的仅整数内核,从而在 CPU/GPU 上降低延迟。

限制与未来工作

  • 模型范围:实验聚焦于两个模型(8 B 和 135 M 参数)。将该方法扩展到 100 B 以上的模型可能会出现新的挑战(例如,中心点查找的内存带宽)。
  • 任务多样性:评估仅限于语言模型困惑度;下游任务(代码生成、推理)可能对秩失真更为敏感。
  • 动态秩变化:本研究将秩视为静态;未来工作可探索 秩感知 的训练目标,明确在量化或剪枝过程中保持排序。
  • 硬件集成:在不同加速器上实现高效的中心点查找内核仍是工程难题。

结论:通过将权重压缩重新定义为 保持秩 的问题,作者提供了一条简单、无需训练的路径来压缩大语言模型,同时保持其功能——这一洞见可能会重塑开发者打包、发布和微调大规模语言模型的方式。

作者

  • Borja Aizpurua
  • Sukhbinder Singh
  • Román Orús

论文信息

  • arXiv ID: 2603.17917v1
  • 类别: cs.LG, cs.CL
  • 出版时间: 2026年3月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »