[Paper] 鲁棒性是函数,而非数值:对视觉驱动中 OOD 鲁棒性的因式化综合研究
在自动驾驶中,分布外(OOD)鲁棒性常常被简化为一个单一数字,掩盖了导致策略失效的因素。我们沿着五…
在自动驾驶中,分布外(OOD)鲁棒性常常被简化为一个单一数字,掩盖了导致策略失效的因素。我们沿着五…
从栅格化的平面图像中重建结构化的矢量图形表示通常是计算任务的一个重要前提条件,涉及……
虽然世界模型已经成为具身智能的基石,通过使代理能够基于动作条件的预测来推理环境动力学……
markdown !VSSFlow 演示图片 https://9to5mac.com/wp-content/uploads/sites/6/2026/02/vssflow-fi.jpg?quality=82&strip=all&w=1600 VSSFlow – 一个统一的音频生成…
Chain-of-Thought 推理被广泛用于提升多模态大语言模型 (MLLMs) 的可解释性,然而生成的推理的忠实性……
概述 FlappyHand 是一款免手操作的互动游戏,灵感来源于经典的 Flappy Bird。角色通过手势控制,手势由您的 webcam 捕捉……
多模态大型语言模型(MLLMs)已经快速发展,但它们在医学中的应用仍受限于领域覆盖、模态对齐等方面的差距,...
深度神经网络的分类性能在很大程度上依赖于获取大规模、准确标注的数据集。然而,在医学影像领域,获取……
视觉大语言模型(VLLMs)的视觉能力一直落后于其语言能力。尤其是,许多基准测试…
完全无监督的 segmentation pipelines 天真地寻找最显著的对象(如果存在的话)。因此,文献中报告的大多数方法……
用于文本到图像生成的多模态扩散变换器(MMDiTs)保持独立的文本和图像分支,并在它们之间实现双向信息流……
Transformer 架构的平滑性已在泛化、训练稳定性和对抗鲁棒性方面得到广泛研究。Ho...
虽然 large-scale text-to-image diffusion models 在 visual quality 上持续提升,但它们日益增长的规模扩大了 state-of-the-art 模式之间的差距。
教学视频编辑仅使用文本提示对输入视频进行编辑,实现直观的自然语言控制。尽管进展迅速,大多数 m...
Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……
高效且持续地将 large pretrained models 适配到新任务对于 real‑world deployment 至关重要,但由于 catastrophic forgetting 等挑战仍然困难。
多图像空间推理仍然是当前多模态大语言模型(MLLMs)的挑战。虽然单视角感知本质上是二维的,推理……
多模态大型语言模型(MLLMs)通过连接视觉和语言,在多模态感知和推理方面取得了显著进展。然而,大多数现有...
为了完成人类以 natural language 提供的任务,机器人必须解释指令,生成并回答与 scene understanding 相关的问题,……
近期在空间推理方面的进展,使用多模态大语言模型(MLLMs)越来越多地利用来自3D编码器的几何先验。然而,大多数现存……
人类很少在显式的全身动作层面上规划与物体的全身交互。高级意图,例如 affordance,定义了目标……
多模态大语言模型(MLLMs)最近被用于通用多模态检索,其中链式思考(CoT)推理能够提升候选项的质量。
Vision Foundation Models (VFMs) 在应用于各种下游 2D 任务时取得了显著成功。尽管它们效果显著,但它们常常表现出……
近期针对实时长视频生成的研究通常采用 streaming tuning 策略,尝试使用 short‑cont(短上下文)来训练 long‑context student。
视觉生成模型的快速发展已经超出了传统评估方法的步伐,迫切需要采用 Vision-Language Models 作为替代……
Lingo‑Live 的起点源于我们许多人都曾感受过的挫败感:尝试从 YouTube 视频或任何屏幕内容中复制文字几乎不可能。大多数人最终会…
在本文中,我们提出了一种受神经启发的 reservoir computing (RC) 方法,其中体外培养的皮层神经元网络作为物理……
通过强化学习(RL)进行后训练已显著提升了大语言模型(LLMs)的推理能力,尤其是在测试时的规模扩展方面。然而,扩展…
Dense point tracking 是计算机视觉中的一个基础问题,应用范围从视频分析到机器人操作。最先进的跟踪器…
我们介绍 PerpetualWonder,这是一种混合生成模拟器,能够从单张图像实现长期、动作条件化的 4D 场景生成。当前的工作……
最近的工作表明,扩散模型可以通过直接在 SSL 补丁特征上操作,而不是在像素空间潜在变量上,生成高质量的图像。然而...
当前的自回归 Vision Language Models(VLM)通常依赖大量视觉 tokens 来表示图像,导致需要更多的计算 …
Pose 和 motion priors 在 humanoid robotics 中发挥关键作用。虽然这些先验已在 human motion recovery (HMR) 领域得到广泛研究,范围……
随着3D扫描技术的进步,点云已成为表示3D空间数据的基础,应用范围遍及各种……
我们对神经网络的理论理解落后于其经验成功。一个重要的未解释现象是,为什么以及如何,在…
人类指甲疾病在所有年龄段逐渐被观察到,尤其是在老年人中,常常被忽视,直到病情严重。早期检测……
在常规结肠镜筛查中,对癌前息肉进行准确的风险分层对于降低结直肠癌(CR...)的发生风险至关重要。
事件相机在许多场景中提供了对RGB相机的显著替代方案。虽然最近已有关于基于事件的 novel-view synthesis 的研究,但 dense 3D mesh …
在 pre-production 阶段,电影制片人和 3D animation 专家必须快速 prototype 想法,以在 fullscale production 之前探索影片的可能性,然而传统……
高质量的科学插图对于有效传达复杂的科学和技术概念至关重要,然而它们的手工创建仍然是一个…
Diffusion-based editing models 已成为语义图像和视频操作的强大工具。然而,现有模型缺乏平滑……
生物形态学的演化对于理解自然界的多样性至关重要,然而传统分析往往涉及主观偏差……
多模态大语言模型(MLLMs)面临严重的训练效率低下问题,这与它们庞大的模型规模和视觉 token 数量有关……
在自回归图像生成中,一个关键挑战是如何在并行地高效采样独立位置的同时,仍然对相互依赖进行建模。
帮助非专业用户开发复杂的交互式网站已成为 LLM-powered code agents 的热门任务。然而,现有的代码代理往往 …
人类视觉是 foveated 的,具有可变的分辨率,在大视野的中心达到最高;这反映了主动感知的高效权衡,allo...
立体匹配是计算机视觉的核心问题,性能至关重要,尤其是在处理大图像或实时系统时。本文分享……
Pixel diffusion 直接在像素空间中端到端生成图像,避免了在两阶段潜在空间中由 VAE 引入的伪影和瓶颈……