· ai
AdaSPEC:用于高效投机解码器的选择性知识蒸馏
引言 AdaSPEC 是一种新方法,通过使用小型草稿模型进行初始生成阶段,然后进行验证,以加速大语言模型。
引言 AdaSPEC 是一种新方法,通过使用小型草稿模型进行初始生成阶段,然后进行验证,以加速大语言模型。
我们提出了 Cross-Attention-based Non-local Knowledge Distillation (CanKD),一种利用 cross-attention 的新型基于特征的知识蒸馏框架。