[Paper] ReaSeq:通过推理释放世界知识用于序列建模
工业推荐系统在日志驱动范式下面临两个根本性的限制:(1) 基于ID的项目表示的知识贫乏导致……
工业推荐系统在日志驱动范式下面临两个根本性的限制:(1) 基于ID的项目表示的知识贫乏导致……
人类婴儿仅通过几百小时的语言输入,就能掌握新语言的基本单元,这凸显了与 da... 相比的显著效率差距。
大型语言模型(LLMs)正日益被部署为开放域、多轮对话环境中的对话助理,用户常常提供不完整或……
当前大型语言模型(LLMs)安全方法侧重于显式有害内容,却忽视了一个关键漏洞:无法理解……
最近的研究表明,直接微调大型语言模型(LLMs)用于密集检索可以获得强大的性能,但它们庞大的参数数量……
我们提出 MoE-DiffuSeq,这是一种基于 mixture of experts 的框架,用于增强 diffusion 模型在长文档生成中的能力。现有的基于 diffusion 的文本生成…
我们引入了 Cube Bench,一个用于评估多模态大语言模型(MLLMs)在空间和序列推理方面的 Rubik's‑cube 基准。该基准...
立体定向放射外科 (SRS) 需要在关键结构周围进行精确的剂量塑形,但由于黑箱 AI 系统的不透明性,其临床采纳受到限制……
大型语言模型(LLMs)生成流畅且复杂的输出,但往往无法识别自己的错误和幻觉。现有方法通常……
将预训练的 softmax attention Transformers 蒸馏为更高效的混合架构,在其中交替使用 softmax 和 linear attention 层,是一种有前景的……
随着大型语言模型(LLMs)向自主代理转变,Deep Research 已成为一个关键指标。然而,现有的学术基准如 BrowseComp 往往未能满足 …
语言的连贯性要求大脑满足两种相互竞争的时间需求:在扩展语境中逐渐累积意义,以及快速重新配置……