[Paper] 通过 KL 引导层选择对混合注意力模型进行蒸馏
将预训练的 softmax attention Transformers 蒸馏为更高效的混合架构,在其中交替使用 softmax 和 linear attention 层,是一种有前景的……
将预训练的 softmax attention Transformers 蒸馏为更高效的混合架构,在其中交替使用 softmax 和 linear attention 层,是一种有前景的……
Simulators 可以生成几乎无限的驾驶数据,但在仿真中,imitation learning policies 仍然难以实现稳健的 closed-loop performance……
我们研究在 ℝ^d 的单位球面上学习一个低阶球面多项式(次数 ℓ₀ = Θ(1) ≥ 1)的问题,通过训练一个过参数化的模型来实现。
大型视觉语言模型(VLM)通常在每张图像或视频帧上处理数百甚至数千个视觉 token,导致二次注意力成本和 su...
视觉语言模型(VLM)在通用理解方面表现出色,但在动态空间推理(DSR)方面仍然薄弱,即对对象 g... 的演变进行推理。
教师的情绪状态在教育情境中至关重要,对教学效能、学生参与度和学习成就产生深远影响。然而……
随着大型语言模型(LLMs)向自主代理转变,Deep Research 已成为一个关键指标。然而,现有的学术基准如 BrowseComp 往往未能满足 …
现代分布式系统面临一个关键挑战:现有的共识协议要么针对节点异构性进行优化,要么针对工作负载独立性进行优化,但两者无法兼顾……
维护大规模、多语言的 codebases 关键在于准确定位问题,这需要将自然语言错误描述映射到相关的……
语言的连贯性要求大脑满足两种相互竞争的时间需求:在扩展语境中逐渐累积意义,以及快速重新配置……
3D图像显示对于下一代体积成像至关重要;然而,密集深度复用用于3D图像投影仍然具有挑战性,因为diff…
随着社交媒体、评论和论坛中非结构化数据的快速增长,文本挖掘已成为信息系统(IS)中提取……的关键。