[Paper] 可证明的长程收益:Next-Token Prediction
为什么现代 language models 在进行 next-word prediction 训练后,似乎能够生成连贯的文档并捕捉长程结构?在这里我们展示……
为什么现代 language models 在进行 next-word prediction 训练后,似乎能够生成连贯的文档并捕捉长程结构?在这里我们展示……
用于代码的大型语言模型(LLM4Code)显著提升了开发者的生产力,但也因依赖开源仓库而引发了隐私担忧……
未来的 AI 系统可能在评估期间隐藏其能力(“sandbagging”),从而误导开发者和审计员。我们对 sandbag...进行压力测试。
量子比特读取是量子计算系统中的关键操作,它将量子比特的模拟响应映射为离散的经典状态。深度神经网络……
在3D表示中嵌入语言字段,通过将几何与描述性意义关联,实现对空间环境更丰富的语义理解。Th...
我们提出 Multi-view Pyramid Transformer (MVP),一种可扩展的多视角 transformer 架构,能够直接从十到数百...重建大型 3D 场景。
我们提出了 GRAPE(Group RepresentAtional Position Encoding),一个基于群作用的统一位置编码框架。GRAPE 将两类……
在真实世界的视频中,叙事通常通过多个镜头展开——这些镜头虽然不连续,却在语义上相连,共同传达一个连贯的叙事……
LLM-based agents 正在快速被接入专家决策支持系统,但在混乱且高风险的环境中,它们很少让团队更聪明:人机团队的……
Carbon-aware 调度器的目标是通过在碳强度低的时段运行灵活的工作负载,以降低数据中心的运营碳足迹。Mos...
我们提出了一种构建大型因果模型(LCMs)的新范式,利用当今大型语言模型(LLMs)中潜在的巨大潜能。我们描述……
大型语言模型(LLMs)正日益被部署在需要推理的场景中,例如多步骤问题求解和 chain-of-thought。 然而,...
流处理是一种计算范式,支持对各种应用的实时数据处理。在 Meta,公司内部广泛用于 …
近期的强化学习(RL)技术在语言模型中取得了显著的推理提升,但仍不清楚后训练的……
大多数视觉生成模型在应用扩散或自回归建模之前,会将图像压缩到潜在空间中。然而,现有的方法,例如 VAEs ……
利用一组配对叙事的数据集,我们研究大型语言模型(LLMs)在可靠区分不连贯和连贯故事方面的程度……
许多运营中的云系统使用一个或多个机器学习模型,以帮助它们实现更高的效率和性能。但运维人员缺乏相应的工具……
在上市前药物安全性审查中,将相关不良事件术语分组为标准化的 MedDRA 查询或 FDA 新药办公室自定义医学查询(O...)。
多模态大语言模型(MLLMs)在视觉‑语言理解任务中展示了卓越的能力。虽然这些模型经常产生语言……
在线不文明行为已成为数字社区中广泛且持续存在的问题,对用户造成了巨大的社会和心理负担。Alt...
大型语言模型(LLMs)在代码智能任务(如代码生成、摘要和翻译)中表现出卓越的性能。然而...
随着基于大型语言模型(LLMs)的AI代理日益嵌入社会,协调、控制、委托和问责等问题正变得日益突出。
脉冲神经网络在事件驱动感知方面表现出色,但在长时间尺度上保持任务相关的上下文仍然是一个挑战。然而,在硬件中构建这些网络……
网络拓扑对于在网络上进行分布式学习时实现高效的参数同步至关重要。然而,大多数现有研究并未考虑...