[Paper] 只有相对排名在权重聚类的大语言模型中重要

发布: 1天前 (2026年3月19日 GMT+8 00:55)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.17917v1

Overview

论文 Only relative ranks matter in weight‑clustered large language models 表明，对于大规模语言模型，单个权重的精确数值远不如这些权重的相对顺序（排名）重要。通过将每个权重矩阵聚类为少量共享值，作者在无需任何再训练的情况下，将 Llama 3.1‑8B 和 SmolLM2‑135M 等模型压缩至仅 16–64 个不同的权重层级，同时保持大部分原始准确度。

关键贡献

Weight‑clustering compression: 将每个权重矩阵替换为通过 K‑means 获得的 K 个中心点，使每层的唯一值数量降低到 16–64。
Training‑free compression: 证明这种激进的量化可以直接使用，无需昂贵的微调。
Fine‑tuning centroids only: 表明仅更新聚类均值（中心点）即可在几乎不增加计算成本的情况下恢复 30‑40 % 的剩余精度损失。
Rank‑vs‑magnitude analysis: 在保持分配不变的情况下系统性随机化中心均值，揭示 打乱秩序 会灾难性地恶化困惑度，而保持秩序则几乎不影响性能。
Layer‑wise drift study: 确认 scale drift（全局尺度变化）是当大量层同时被扰动时导致崩溃的主要原因，并提出一个简单的仿射校正 ( w′ = a w + b , a > 0) 来保持秩序并缓解漂移。
New perspective on robustness: 将相对权重排序定位为压缩和模型稳定性的核心不变量，为保持秩序的正则化和诊断提供了新方向。

方法论

Weight clustering – 对每个线性层，作者在原始权重值上运行 K‑means，并用最近的质心替换每个条目。质心数量 K 设为一个小常数（16–64）。
Zero‑shot evaluation – 对聚类后的模型在标准语言模型基准（例如 WikiText‑103 的困惑度）上进行评估，且不进行任何额外训练。
Centroid fine‑tuning – 仅将 K 个质心值视为可学习参数，并在少数 epoch 中更新，保持分配映射不变。
Randomization experiments –
- Rank‑preserving: 在保持质心值顺序（秩）不变的情况下随机置换质心值。
- Rank‑scrambling: 随机打乱质心值，破坏原有秩序。
  两者都保持全局统计量（均值、方差）不变。
Progressive layer replacement – 将层逐个从原始替换为聚类后的层，测量误差的累积以及是尺度漂移还是秩失真占主导。
Affine correction – 聚类后，对每层可选地应用线性变换（尺度 a > 0，偏移 b），以在保持秩的前提下重新对齐整体分布。

结果与发现

模型	K（质心）	零样本困惑度 Δ	仅质心微调后 Δ	保持秩的洗牌 Δ	秩打乱 Δ
Llama 3.1‑8B	32	+3 %（≈ 可忽略）	–30 % 相对于基线差距	≈ 0 %（无影响）	↑ × 10–100（数量级提升）
SmolLM2‑135M	16	+5 %	–35 % 的差距	≈ 0 %	↑ × 50–200

Δ 表示相对于原始未压缩模型的困惑度变化。

压缩有效：即使仅使用 16 个不同的权重层级，模型仍保留了大部分预测能力。
质心微调成本低：仅更新每层几十个数值（质心）即可显著提升性能，所需 GPU 时间远低于全模型微调。
秩顺序重要：破坏聚类的排序会导致困惑度急剧上升，证明模型依赖于哪些连接更强，而不是它们的精确数值。
尺度漂移：当大量层同时被修改时，权重的整体尺度会漂移，导致性能崩溃。保持正比例（a > 0）的仿射校正可以显著延缓这种崩溃。

Source: …

实际意义

磁盘空间节省：在边缘设备或容器化服务上部署 LLM 成为可能；一个 8 B 模型的权重体积可减少约十倍。
快速模型分发：团队可以共享压缩后的检查点，无需重新训练，从而加速协作与可复现性。
低成本微调：仅更新中心向量即可在普通硬件上实现快速的领域适配（例如指令跟随的微调）。
鲁棒性诊断：在量化或剪枝过程中监控秩保持情况可作为可靠性检查——若秩顺序发生变化，则预期会出现严重退化。
硬件友好推理：更少的唯一权重值提升缓存局部性，并有望使用自定义的仅整数内核，从而在 CPU/GPU 上降低延迟。

限制与未来工作

模型范围：实验聚焦于两个模型（8 B 和 135 M 参数）。将该方法扩展到 100 B 以上的模型可能会出现新的挑战（例如，中心点查找的内存带宽）。
任务多样性：评估仅限于语言模型困惑度；下游任务（代码生成、推理）可能对秩失真更为敏感。
动态秩变化：本研究将秩视为静态；未来工作可探索 秩感知 的训练目标，明确在量化或剪枝过程中保持排序。
硬件集成：在不同加速器上实现高效的中心点查找内核仍是工程难题。

结论：通过将权重压缩重新定义为 保持秩 的问题，作者提供了一条简单、无需训练的路径来压缩大语言模型，同时保持其功能——这一洞见可能会重塑开发者打包、发布和微调大规模语言模型的方式。

作者

Borja Aizpurua
Sukhbinder Singh
Román Orús

论文信息

arXiv ID: 2603.17917v1
类别: cs.LG, cs.CL
出版时间: 2026年3月18日
PDF: 下载 PDF

[Paper] 只有相对排名在权重聚类的大语言模型中重要

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

[Paper] IndicSafe：评估南亚多语言 LLM 安全性的基准

[Paper] 通过领域驱动的分层检索缓解 LLM 幻觉

[Paper] CodeScout：强化学习代码搜索代理的有效配方