[Paper] Multi-view Pyramid Transformer:看得更粗,以见更广
我们提出 Multi-view Pyramid Transformer (MVP),一种可扩展的多视角 transformer 架构,能够直接从十到数百...重建大型 3D 场景。
3337 posts from this source
我们提出 Multi-view Pyramid Transformer (MVP),一种可扩展的多视角 transformer 架构,能够直接从十到数百...重建大型 3D 场景。
我们提出了 GRAPE(Group RepresentAtional Position Encoding),一个基于群作用的统一位置编码框架。GRAPE 将两类……
在真实世界的视频中,叙事通常通过多个镜头展开——这些镜头虽然不连续,却在语义上相连,共同传达一个连贯的叙事……
LLM-based agents 正在快速被接入专家决策支持系统,但在混乱且高风险的环境中,它们很少让团队更聪明:人机团队的……
Carbon-aware 调度器的目标是通过在碳强度低的时段运行灵活的工作负载,以降低数据中心的运营碳足迹。Mos...
我们提出了一种构建大型因果模型(LCMs)的新范式,利用当今大型语言模型(LLMs)中潜在的巨大潜能。我们描述……
大型语言模型(LLMs)正日益被部署在需要推理的场景中,例如多步骤问题求解和 chain-of-thought。 然而,...
流处理是一种计算范式,支持对各种应用的实时数据处理。在 Meta,公司内部广泛用于 …
近期的强化学习(RL)技术在语言模型中取得了显著的推理提升,但仍不清楚后训练的……
大多数视觉生成模型在应用扩散或自回归建模之前,会将图像压缩到潜在空间中。然而,现有的方法,例如 VAEs ……
利用一组配对叙事的数据集,我们研究大型语言模型(LLMs)在可靠区分不连贯和连贯故事方面的程度……
许多运营中的云系统使用一个或多个机器学习模型,以帮助它们实现更高的效率和性能。但运维人员缺乏相应的工具……
在上市前药物安全性审查中,将相关不良事件术语分组为标准化的 MedDRA 查询或 FDA 新药办公室自定义医学查询(O...)。
多模态大语言模型(MLLMs)在视觉‑语言理解任务中展示了卓越的能力。虽然这些模型经常产生语言……
在线不文明行为已成为数字社区中广泛且持续存在的问题,对用户造成了巨大的社会和心理负担。Alt...
大型语言模型(LLMs)在代码智能任务(如代码生成、摘要和翻译)中表现出卓越的性能。然而...
随着基于大型语言模型(LLMs)的AI代理日益嵌入社会,协调、控制、委托和问责等问题正变得日益突出。
脉冲神经网络在事件驱动感知方面表现出色,但在长时间尺度上保持任务相关的上下文仍然是一个挑战。然而,在硬件中构建这些网络……
网络拓扑对于在网络上进行分布式学习时实现高效的参数同步至关重要。然而,大多数现有研究并未考虑...
自动驾驶汽车的快速发展导致测试需求激增。传统的测试方法,如虚拟仿真、封闭赛道和……
自动从 natural language requirements 合成 verifiable code 可确保软件的正确性和可靠性,同时显著降低了门槛。
我们研究大型语言模型(LLMs)在作为具备工具使用能力的自主代理时的失败情况。使用 Kamiwaza Agentic Merit Index(KAM)...
DreamerV3 是一种最先进的在线模型驱动强化学习(MBRL)算法,以其显著的样本效率而闻名。同时,Kolmogorov‑Arno…
active automata learning、model-based testing 和 model checking 的组合已在众多应用中成功使用,例如用于发现 bug …
尽管大型语言模型(LLMs)在代码生成方面非常有效,但它们经常输出错误的代码。一个原因是模型输出概率……
Otus 是一个高性能计算集群,于 2025 年启动,由帕德博恩并行计算中心(PC2)在帕德博恩大学运营。
我们考虑从带噪声且欠定的观测中恢复未知低维向量的问题。我们聚焦于 Generalized Projected Gradient……
模拟计算在边缘是一种新兴策略,用于限制数据存储和传输需求,以及能源消耗,并且它的实际实现…
视频扩散模型(VDMs)在三维时空域上执行注意力计算。相较于处理一维序列的大型语言模型(LLMs)……
视觉语言模型(VLMs)已展示出令人印象深刻的多模态理解能力,并正被部署在越来越多的在线视频中……
大型语言模型(LLMs)的快速采用正推动 AI 加速器向更强大且更专用的设计发展。与其进一步复杂化…
Process mining 传统上假设事件数据的集中收集和分析。然而,现代的 Industrial Internet of Things 系统正日益以 … 运行。
虽然 surrogate backpropagation 在训练深层 spiking neural networks (SNNs) 中被证明是有用的,但在大规模 …
Lottery Ticket Hypothesis 断言,在密集、随机初始化的神经网络中存在高度稀疏、可训练的子网络(“winning tickets”)。
我们引入 Neuro‑Vesicles,一个在传统神经网络上增添缺失计算层的框架:一个动态的、可移动的、离散的……
本文介绍了 ArcGD 优化器的公式化、实现和评估。评估最初在一个非凸基准函数上进行……
我们报告了一种单色多任务衍射网络架构,利用照明相位复用来动态重新配置其输出功能……
循环神经架构如 LSTM 和 GRU 在序列建模中仍被广泛使用,但它们仍面临两个核心限制:冗余的门…
在大型语言模型(LLMs)时代,检索增强生成(RAG)架构因其能够将语言……
Instruction-based image editing 已成为一个重要的研究领域,受益于 image generation foundation models,已经实现了高水平的美学效果……
实时分块(RTC)使视觉‑语言‑动作模型(VLAs)能够通过异步预测动作块,生成平滑、响应迅速的机器人轨迹……
强化学习 (RL) 已成为微调大型语言模型 (LLMs) 以解决涉及推理任务的事实标准。然而,越来越多的证据表明,模型 tra...
水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...
视觉语言模型(VLMs)在视觉问答(VQA)中取得了强劲的表现,但它们仍受限于静态的训练数据。检索…
基于大型语言模型(LLMs)的生成式搜索引擎正在取代传统搜索,根本改变了信息提供者的补偿方式……
在本工作中,我们研究了 kernel regularity 与 algorithmic performance 在 RKHS 函数的 bandit optimization 中的关系。虽然 reproduci...
视觉语言模型(VLMs)展现出卓越的常识和语义推理能力。然而,它们缺乏对物理动态的扎实理解。
我们介绍了一个大规模的 synthetic benchmark,包含 15,045 道大学水平的 physics problems(90/10% train/test split)。每道题目都是完全 parameterized 的,...