[论文] 并行标记预测语言模型
我们提出了并行令牌预测(Parallel Token Prediction,PTP),这是一种用于语言模型中并行序列生成的通用框架。PTP 联合预测多个相互依赖的 t...
我们提出了并行令牌预测(Parallel Token Prediction,PTP),这是一种用于语言模型中并行序列生成的通用框架。PTP 联合预测多个相互依赖的 t...
最小化 PDE‑残差损失是促进神经算子物理一致性的常用策略。然而,标准形式往往缺乏变分 c...
本文推导了“Scaling Laws for Economic Impacts”——即大语言模型(LLMs)的训练算力与专业……之间的经验关系。
Data processing inequality 是信息论中的一个原理,指出对观测到的信号进行处理时,信号的信息内容不能增加。
在形状上求解偏微分方程(PDE)是许多形状分析和工程任务的基础;然而,现有的 PDE 求解器主要在多边形/三角网格上运行……
图形用户界面(GUI)代理可以通过自动化在移动设备上频繁执行的长延迟任务,显著提升生产力。然而,ex...
急性髓系白血病(AML)由于其极端的分子异质性和高复发率,仍然是临床上的挑战。虽然精准医学已经引入……
Model merging 已成为一种轻量级的替代方案,用于 joint multi-task learning (MTL),但合并模型的泛化属性仍然在很大程度上未被探讨。
结构化数据从表格中提取在扫描文档和数字档案的文档图像分析中发挥着关键作用。虽然已经有许多方法……
现代外科系统日益依赖 intelligent scene understanding,以提供及时的 situational awareness,提升 intra-operative safety。 Within...
Engineering Manuals(EM)的用户发现阅读 EM 很困难,因为它们篇幅很长,格式密集,包含书面文档、逐步 …
现代深度学习方法通常将图像序列视为顺序堆叠帧的大张量。然而,这种直接的表示是否…