1周前 · ai [论文] 控制对注意力 logits 的更改 在训练 transformer 模型时,神经网络权重的稳定性至关重要。查询(query)和键(key)权重尤其成问题,因为它们倾向于增长……