[Paper] 强化 Fast Weights 与 Next-Sequence Prediction
Fast weight architectures 通过保持 constant memory overhead,为 long-context modeling 提供了相较于 attention-based transformers 的有前景的替代方案。
Fast weight architectures 通过保持 constant memory overhead,为 long-context modeling 提供了相较于 attention-based transformers 的有前景的替代方案。
当前的音频语言模型主要以文本为先,要么扩展预训练的文本 LLM 主干,要么依赖仅语义的音频 token,限制了 g...
大型语言模型(LLMs)的快速激增已经彻底改变了自然语言处理(NLP),但同时也造成了“资源鸿沟”。
大型语言模型(LLMs)正日益被用作自然语言生成评估的自动评估器,通常采用成对比较判断……
当前最先进的多向量模型是通过在强大的单向量模型之上进行一次小规模的知识蒸馏(KD)训练步骤获得的,lever...
市政会议记录是记录地方政府讨论和决策的正式文档,但其内容往往冗长、密集且难以理解……
多模态大型语言模型(mLLMs)常用于在结构化数据中回答问题,例如 Markdown 表格、JSON 和图像。虽然这些模型……
Low-resource languages 在 Natural Language Processing 任务(如 lemmatization 和 part-of-speech (POS) tagging)中带来持续的挑战。本文 inves...
大型语言模型在许多复杂推理任务上表现出色,但它们在需要组合推理的基准测试中准确率会急剧下降。
大型语言模型(LLMs)正在改变编码范式,被称为 vibe coding,然而合成算法上复杂且稳健的代码仍然是一个挑战。
概述 企业AI公司 Cohere 在印度 AI 峰会期间推出了一个新的多语言模型系列,称为 Tiny Aya。这些模型是...
虽然 learned representations 是 neural networks 成功的基础,但它们的基本属性仍然了解不足。一个显著的例子是…