· ai
[论文] 多个思维源自单一模型:贝叶斯Transformer用于群体智能
尽管规模庞大且取得了成功,现代 transformers 几乎普遍被训练为单一目标的系统:优化产生一组确定性的参数……
尽管规模庞大且取得了成功,现代 transformers 几乎普遍被训练为单一目标的系统:优化产生一组确定性的参数……
Clock 和 Pizza 解释与在 uniform 或 learnable attention 上有所不同的架构相关,被提出用来论证不同的 a...
现代机器学习(ML)训练和推理现在跨越数十到数万块 GPU,在此过程中,网络故障由于恢复缓慢会浪费 10%–15% 的 GPU 小时。常见的 ne...
本研究提出了一个概念框架和针对基于大型语言模型(LLM)的建筑能源管理系统(BEMS)AI 代理的原型评估,以……
检索增强生成(RAG)对所选上下文的质量高度敏感,但标准的 top‑k 检索往往返回冗余或近似重复的…
判别式分类方法常常学习到在分布内有效的捷径,但在轻微的分布转移下就会失效。这种失效模式源于...
Transformer 语言模型通过将语言建模为一系列 token 来生成惊人自然的文本。然而,仅仅依赖表层共现……
二元选择,通常用于人类反馈强化学习(RLHF),仅传达偏好的方向。一个人可能会选择苹果而不是……
本文的目标是为深度梯度流方法(DGFMs)在求解(高维…)中的应用提供坚实的数学基础。
扩散语言模型(DLMs)已成为一种有前景的替代自回归模型的方案,可通过并行标记生成实现更快的推理。我们提供...
我们引入了一阶迭代优化算法的基本不等式,构建了一个简单且通用的框架,将隐式和显式方法联系起来……
对法律文档进行分类是一项挑战,除了它们的专业词汇外,有时它们可能非常冗长。这意味着将完整文档输入到 T...