224× 压缩 Llama-70B,获得更高精度(论文与代码)
发布: (2025年12月10日 GMT+8 09:25)
1 min read
原文: Hacker News
Source: Hacker News
细节
- 文章链接: https://zenodo.org/records/17873275
- 评论链接: https://news.ycombinator.com/item?id=46212969
- 积分: 14
Source: Hacker News
我们提出了 Cross-Attention-based Non-local Knowledge Distillation (CanKD),一种利用 cross-attention 的新型基于特征的知识蒸馏框架。
现代世界的许多方面都由人工智能驱动。人工智能(AI)如今推动着我们生活的无数层面,加速人类……
引言 AdaSPEC 是一种新方法,通过使用小型草稿模型进行初始生成阶段,然后进行验证,以加速大语言模型。
AlphaFlow 为 MeanFlow 图像模型提供了更平滑的训练计划,减少了其两个目标之间的冲突,加速了学习。概述……