[Paper] Video4Spatial:迈向具备上下文引导的视频生成的视觉空间智能
我们调查视频生成模型是否能够展现视觉空间智能,这是一种对人类认知至关重要的能力,仅使用视觉数据。为此……
3342 posts from this source
我们调查视频生成模型是否能够展现视觉空间智能,这是一种对人类认知至关重要的能力,仅使用视觉数据。为此……
尽管视频到音频生成取得了进展,该领域主要关注单声道输出,缺乏空间沉浸感。现有的binaural方法仍然……
本文研究了涉及非保守力的拉格朗日系统的建模与控制,采用一种不需要加速度的混合方法...
我们提出 MAViD,一个用于 Audio-Visual Dialogue 理解和生成的全新 Multimodal 框架。现有方法主要关注非交互式的……
Data-driven motion priors 能够引导 agents 产生自然行为,在创建逼真的虚拟角色方面发挥关键作用。Adversaria...
Large Language Models (LLMs) 的快速发展和适应性凸显了道德一致性的需求,即保持伦理连贯性的能力……
成就。我们推出 LORE,一个基于大型生成模型的电商搜索相关性系统框架。已部署并迭代三年,...
大型语言模型(LLM)服务现在每天回答数十亿次查询,行业报告显示,推理(inference)而非训练(training)占比超过90%。
磁共振成像(MRI)提供了出色的软组织对比度且无需电离辐射,但其长时间的采集限制了临床实用性。最近……
考虑到用作成对偏好评判的 Large Language Models (LLMs) 在单样本层面仍然噪声较大,且常见的聚合规则(多数投...
编辑肖像视频是一项具有挑战性的任务,需要在广泛的修改范围内实现灵活且精确的控制,例如外观变化、表情……
大型语言模型(LLMs)的快速发展为 AI for good 应用打开了新的可能性。随着 LLMs 越来越多地调解在线交流……
近年来自然语言处理(NLP),尤其是大语言模型(LLMs)的进展,促使了自然语言 ... 的自动翻译。
理解肿瘤微环境 (TME) 的空间结构对于推动精准肿瘤学至关重要。我们提出了 ProteinPNet,一个新颖的框架……
从 LiDAR 序列建模动态 3D 环境是构建可靠的 4D 世界以用于 autonomous driving 和 embodied AI 的核心。现有的生成框架……
幻觉仍然是大型语言模型(LLMs)的关键挑战,阻碍了可靠的多模态LLM(MLLM)发展。现有的解决方案……
对使用脑电图(EEG)测量的脑模式进行稳健的解码和分类仍然是现实世界(即科学之外)的一大挑战……
虽然 Multimodal Large Language Models (MLLMs) 展现出卓越的能力,但它们的安全对齐容易受到 jailbreak 攻击。现有的攻击方法...
在鸟瞰视图(BEV)表示中融合 LiDAR 和 camera 信息已证明其在 3D object detection 中的有效性。然而,因为...
引力波数据分析依赖于准确且高效的方法,从噪声探测器信号中提取物理信息,然而不断增长的速率……
隐式神经表示(INR)是一种近似时空函数的神经网络。许多内存密集型的可视化任务,包括…
我们推出了首个原则化框架 Lumos,用于指定和正式认证语言模型系统(LMS)的行为。Lumos 是一种命令式概率……
在低光环境下,如夜间驾驶,图像退化严重挑战 in-vehicle camera 的安全性。由于现有的 enhancement algorithms 通常……
本章探讨软件的进化生态学,重点关注软件与创新之间的共生关系。一个 … 之间的相互作用。
我们提出 Layout Anything,一个基于 transformer 的室内布局估计框架,它将 OneFormer 的通用分割架构适配到几何…
虽然机器学习已经实现了对具有新颖属性的无机材料的快速预测,但如何合成这些材料的挑战仍然存在。
视频生成的下一个前沿是开发能够进行 zero-shot 推理的模型,其中对 real-world scientific laws 的理解至关重要,以实现……
新视角合成(NVS)在计算机视觉和图形学中至关重要,广泛应用于增强现实(AR)、虚拟现实(VR)和自动驾驶。虽然3D Gaussian Splatting(3D...)
本文关注的是如何加速在自相关数据上训练的 Gaussian process 模型的计算问题。Gaussian process 模型 i...
虽然神经处理单元(NPUs)为边缘AI提供了高理论效率,但针对GPU定制的最先进视觉语言模型(VLMs)常常出现不足……
Move 是一种面向研究的编程语言设计,旨在实现安全且可验证的智能合约开发,并已广泛用于管理数十亿美元的…
最近在推理技术方面的进展显著提升了大型语言模型(LLMs)的性能,提升了人们对它们在…的能力的期望。
调试是软件开发和电路设计中最耗时、最昂贵的任务之一。几种基于公式的故障定位(FBFL)方法……
Diffusion 大语言模型(dLLMs)提供了一种有前景的 autoregressive 模型替代方案,但其实际效用因生成缓慢、迭代……
Test-time policy optimization 使大语言模型(LLMs)能够通过利用自生成 rollouts 的反馈来适应 distribution shifts。然而,...
多数投票已被证明在封闭式问答中通过聚合并行推理轨迹而有效。然而,它并不直接适用于开放式……
在低资源语言中,hate speech 识别仍然是一个困难的问题,原因是数据集不足、正字法异质性以及语言多样性。
高性能计算 (HPC) 中心提供先进的基础设施,使得在极大规模上进行科学研究成为可能。这些中心使用硬件 …
代码生成型 LLM 主要在静态工件(源代码、注释、规范)上进行训练,几乎不涉及运行时行为的具体化。因此……
数字声音合成提供了探索包含数百万种配置的庞大参数空间的机会。质量多样性(QD)进化算法……
在生成式 AI 以及更广泛的 AI 辅助编码趋势的推动下,‘vibe coding’ 这一术语指的是通过自然语言提示来创建软件的过程……
数据科学项目经常表现出高失败率,这主要是由技术限制、组织局限以及风险管理实践不足所驱动的。
将一组软件变体迁移到软件产品线(SPL)是一项昂贵且可能具有挑战性的工作。事实上,SPL 工程可以显著……
在分布式系统中,使进程广播消息的最常见策略是一对全(one-to-all)通信。然而,这种方法不可伸缩……
Beaconless geocast 协议是用于在移动自组织无线网络中发送消息的路由协议,在这种网络中,每个节点唯一可用的信息是……
可穿戴传感器,例如 smartwatches,已在医疗、体育和教育等领域日益普及,实现了持续监测……
对人工智能 (AI) 工作负载在各种计算环境中的需求日益增长,推动了对更高效的数据管理策略的需求。
本技术白皮书介绍了交互式代理调用树(Interactive Agents Call Tree,IACT),这是一种计算模型,旨在解决 static、hard‑coded 的局限性……