[Paper] 生成式场景展开用于端到端自动驾驶
Vision-Language-Action(VLA)模型正逐渐成为端到端自动驾驶系统中极为有效的规划模型。然而,当前的工作大多…
Vision-Language-Action(VLA)模型正逐渐成为端到端自动驾驶系统中极为有效的规划模型。然而,当前的工作大多…
随着视觉语言模型(VLMs)处理日益复杂和多模态的任务,键值(KV)缓存的快速增长对内存和计算资源提出了显著的压力……
大型畜牧业对人类健康和环境构成重大风险,同时也易受到诸如传染病等威胁。
Diffusion models 现在能够生成高质量、多样化的样本,且对更强大模型的关注日益增加。虽然 ensembling 是一种众所周知的提升方法……
我们提出了 Map2Thought,一个能够为 3D VLM 提供显式且可解释的空间推理的框架。该框架基于两个关键组件:Metr...
PubMed-OCR 是一个以 OCR 为中心的科学文章语料库,来源于 PubMed Central Open Access PDFs。每页图像都使用 Google Cloud Vision 进行标注……
一种多层次的分割、颜色校正和特定领域增强方法。文章《从RGB到Lab:解决AI图像合成中的颜色伪影》
我们提出了 WildRayZer,一个用于新视角合成(NVS)的自监督框架,适用于相机和物体同时移动的动态环境。动态内容…
我们介绍了 Alterbute,这是一种基于 diffusion 的方法,用于编辑图像中对象的内在属性。我们可以改变颜色、纹理、材料,甚至……
Vision-Language Models (VLMs) 通过使用一种粗糙、非对称的连接,仅将 vision encoder 的输出链接起来,造成了严重的视觉特征瓶颈……
近期在端到端自动驾驶方面的进展表明,从基础模型中提取的补丁对齐特征训练的策略在对 Out-... 的泛化能力更强。
最近在视频模型方面取得了巨大的进展,尤其是在长视频理解方面。然而,当前的基准测试主要呈现……
在本文中,我们发现3D人体动作和2D人体视频的生成本质上是耦合的。3D动作为合理性提供结构先验……
当今最强的视频语言模型(VLM)仍然是专有的。最强的开源权重模型要么依赖于来自专有 VLM 的合成数据,有效地……
自适应视频流在过去几年中促进了视频流的改进。需要在比特率、视频质量等编码性能目标之间取得平衡……
Talking head generation 在虚拟现实(VR)中变得日益重要,尤其是在涉及多轮对话的社交场景中。现有方法……
从视觉观察中推断物理动作是推动 machine intelligence 在物理世界中发展的基本能力。实现这一点需要…
人工智能(AI)有潜力通过自动化图像分析和加速临床研究来改变医学影像。然而,研究 a...
Apple 研究人员已发表了一项关于 Manzano 的研究,Manzano 是一种多模态模型,结合了视觉理解和文本到图像生成,同时显著……
Vision-Language-Action (VLA) 任务需要对复杂视觉场景进行推理,并在动态环境中执行自适应动作。虽然最近的研究关于 …
Segment Anything 3 (SAM3) 已经建立了一个强大的基础,能够在视频中稳健地检测、分割和跟踪指定目标。然而,在其原始…
从稀疏多视角进行 3D pose estimation 是众多应用的关键任务,包括 action recognition、sports analysis 和 human-robot interaction 等。
基于扩散模型的现代视频生成模型能够生成非常逼真的片段,但它们计算效率低下,通常需要数分钟的……
随着大型语言模型(LLMs)持续扩展,后训练剪枝已成为一种有前景的方法,可在保持性能的同时降低计算成本……
我们推出 STEP3-VL-10B,这是一款轻量级开源基础模型,旨在重新定义紧凑效率与前沿水平多模态之间的权衡……
单目视觉SLAM能够从互联网视频进行3D重建,并在资源受限的平台上实现自主导航,但却受到尺度漂移的影响,…
在长时段视频中识别单个动物对于行为生态学、野生动物监测和畜牧管理至关重要。传统方法 r...
大规模视觉语言模型(如 CLIP)能够实现强大的零样本识别,但在预训练期间很少见到的类别上表现不佳,包括……
从单张图像估计物理上准确、simulation-ready 的服装具有挑战性,因为缺乏 image-to-physics 数据集,并且该问题是病态的 n...
文本到图像(T2I)模型日益流行,产生了大量在线的 AI 生成图像。为了比较模型质量,基于投票的排行榜……
虽然 GUI 代理在明确指令和完成指令下表现出强大的性能,但在实际部署中需要与用户更复杂的实现保持一致。
引言 我一直对 deep learning 如何解决现实世界问题感到着迷,而 fruit disease detection 似乎是完美的挑战——不是...
隐形水印已成为验证 AI 生成图像内容的关键机制,主要平台正在大规模部署水印方案……
像 SAM2 这样的 Video object segmentation 方法通过基于 memory 的架构实现了强大的性能,但在视角大幅变化时会因可靠性…
尽管视频生成模型取得了快速进展,但数据在影响运动方面的作用仍然了解不足。我们提出了 Motive(MOTIon attribution for Vi...)。
最近大型语言模型(LLMs)在强推理能力方面的发展推动了数学、编码和科学等多个领域的研究。
在大多数人物再识别(ReID)方法中,Tracklet 质量常常被视为事后考虑,绝大多数研究仅关注架构的修改……
准确的个体识别对于监测稀有两栖动物至关重要,但侵入性标记往往不适用于极危物种。我们 e...
从 radiographs 中诊断牙科疾病既耗时又具挑战性,因为诊断证据往往非常微妙。现有方法依赖于……
图像合成模型的快速出现对 AI 生成图像检测器的泛化能力构成了挑战。然而,现有方法往往依赖于 mo...
组织病理学分析依赖于苏木精-伊红(H&E)染色,但荧光显微镜提供了互补的信息。将荧光…
Chain-of-Thought (CoT) 推理已被证明能够通过鼓励逐步的中间推理来提升大语言模型的效果,近期的进展……
通过处理从物联网传感设备收集的数据,在智能家居中进行基于无侵入式传感器的日常活动(Activities of Daily Living,ADLs)识别,支持应用……
大型语言模型已成为安全运营中心的变革性工具,能够实现自动化日志分析、网络钓鱼分流和恶意软件解释……
我们提出 RefVFX,一个新的框架,以前馈方式将复杂的 temporal effects 从 reference video 转移到 target video 或 image 上。虽然 e...
虽然 Transformer 架构在许多领域占据主导地位,但其二次方的 self-attention 复杂度阻碍了其在大规模应用中的使用。Linear attention …
大型视觉语言模型(LVLMs)已经展示了卓越的能力,但它们在理解和推理多张图像方面的熟练程度仍然……
遥感变化检测根本上依赖于对双时相特征的有效融合和判别。主流范式通常采用…