[Paper] LongVideoAgent:多智能体推理与长视频
最近在多模态 LLM 和使用工具进行长视频 QA 的系统方面的进展,表明了对长达数小时情节进行推理的前景。然而,许多方法...
最近在多模态 LLM 和使用工具进行长视频 QA 的系统方面的进展,表明了对长达数小时情节进行推理的前景。然而,许多方法...
认知科学表明,空间能力是逐步发展的——从感知到推理再到交互。然而在多模态大语言模型(MLLMs)中,这种层次...
当前的视频化身生成方法在身份保持和动作对齐方面表现出色,但缺乏真实的自主性,它们无法自主追求长期目标。
本文提出了 FedPOD(Proportionally Orchestrated Derivative),用于在多方联邦学习中优化学习效率和通信成本。
点跟踪旨在定位视频帧之间的对应点,作为四维重建、机器人技术和视频编辑的基础任务。现有...
我们引入了 Cube Bench,一个用于评估多模态大语言模型(MLLMs)在空间和序列推理方面的 Rubik's‑cube 基准。该基准...
Simulators 可以生成几乎无限的驾驶数据,但在仿真中,imitation learning policies 仍然难以实现稳健的 closed-loop performance……
大型视觉语言模型(VLM)通常在每张图像或视频帧上处理数百甚至数千个视觉 token,导致二次注意力成本和 su...
视觉语言模型(VLM)在通用理解方面表现出色,但在动态空间推理(DSR)方面仍然薄弱,即对对象 g... 的演变进行推理。
3D图像显示对于下一代体积成像至关重要;然而,密集深度复用用于3D图像投影仍然具有挑战性,因为diff…
我们提出了一种视觉-语言仿真模型(VLSM),它统一了视觉和文本理解,以从布局草图中合成可执行的FlexScript……
跨模态的深度表征本质上是交织在一起的。在本文中,我们系统地分析了各种语义和……的光谱特性。
生成逼真的 human-human 交互是一项具有挑战性的任务,它不仅需要高质量的单体身体和手部动作,还需要连贯的……
我们引入 Perception Encoder Audiovisual(PE-AV),一种用于音频和视频理解的新型编码器家族,采用缩放对比学习进行训练。构建于...
最近,Chain-of-Thought(CoT)的引入在很大程度上提升了统一模型的生成能力。然而,观察到当前的...
我们构建了首个系统来解决从单目 RGB 视频中重建场景内对象操作的问题。由于该问题本质上是病态的……
虽然多模态大语言模型(MLLMs)已经在语义任务上取得了令人印象深刻的表现,但它们的空间智能——对稳健和...
生成长距离、几何一致性的视频面临一个根本性的困境:虽然一致性要求在像素空间严格遵守3D geometry,……
背景:高分辨率 MRI 对诊断至关重要,但长时间的采集限制了临床使用。超分辨率(SR)可以在扫描后提升分辨率……
我们利用多模态大型语言模型(LLMs),从 9,562 张档案图像扫描中构建了一个包含 306,070 项德国专利(1875‑1918)的数据集,使用我们的 LLM‑b…
糖尿病视网膜病变(DR)是全球可预防失明的主要原因之一,需要准确的自动化诊断系统。虽然通用领域的视觉‑la…
虽然Multimodal Large Language Models在许多visual和textual reasoning tasks上已经达到了类人水平的表现,但它们在细粒度spatial…
近期在自监督 Joint-Embedding Predictive Architectures(JEPAs)方面的突破表明,正则化欧几里得表示以趋向 iso...
概述 YOLOv6 是面向工厂、商店和各类摄像头的目标检测新进展。它由一个专注于速度和可靠性的团队构建,……