· ai
[Paper] 使用归因图解释大型语言模型的推理
大型语言模型(LLMs)展现出惊人的能力,但它们的推理过程仍然不透明,导致安全性和可信度方面的担忧。Attribution methods,...
大型语言模型(LLMs)展现出惊人的能力,但它们的推理过程仍然不透明,导致安全性和可信度方面的担忧。Attribution methods,...
持续学习仍然是机器学习中的根本性挑战,需要模型从任务流中学习,同时不忘记先前获得的知识。
状态空间模型(SSMs)是语言建模中一种有前景的 transformer 替代方案,因为它们在推理时使用固定内存。然而,这种固定 ...
与扩展 LLMs 的 context window 相关的计算和内存开销严重限制了它们的可扩展性。一个值得注意的解决方案是 vision-te…
大型语言模型正日益通过微调适配下游任务。全监督微调(SFT)和参数高效微调(P...)
LLMs(Large Language Models)在文本处理流水线中被越来越多地使用,以智能地响应各种输入和生成任务。这引发了...
心理防御是人们用来管理痛苦的策略,通常是自动的。防御的僵化或过度使用与心理健康呈负相关……
我们推出 Bolmo,这是首个在 1B 和 7B 参数规模上具有竞争力的完全开放的字节级语言模型(LMs)系列。与以往研究相比……
本论文并未提出新方法,而是为视频时间定位(VTG)建立了一个直接、渐进且必不可少的基线,……
Video foundation models 生成视觉上逼真且时间上连贯的内容,但它们作为 world simulators 的可靠性取决于它们是否捕捉到 …
最近的音频语言模型能够跟随长对话。然而,情感感知或口语对话摘要的研究受到数据缺乏的限制……
Multi-token generation 已成为加速基于 Transformer 的大模型推理的有前景范式。近期的工作主要探索 diffusion …