long-context

14小时前 · ai

第2部分：为什么 Transformer 仍然会遗忘

第2部分 – 为什么长上下文语言模型仍然在记忆方面挣扎（共三部分系列的第二部分）在第1部分 https://forem.com/harvesh_kumar/part-1-long-context-...

#transformers #long-context #memory #language-models #deep-learning #AI-research
2天前 · ai

Mixtral专家模型

概述 Mixtral 8x7B 是一种语言模型，它将任务分配给众多微小的专家，从而实现速度和智能的双重提升。它采用 Sparse Mixtu...

#Mixtral #Mixture of Experts #Sparse MoE #large language models #LLM #open-source #long-context #coding #multilingual