[Paper] JMMMU-Pro: 基于图像的日语多学科多模态理解基准 via Vibe 基准构建
本文介绍了 JMMMU‑Pro,一个基于图像的日语多学科多模态理解基准,以及 Vibe Benchmark Construction,一个可扩展的…
本文介绍了 JMMMU‑Pro,一个基于图像的日语多学科多模态理解基准,以及 Vibe Benchmark Construction,一个可扩展的…
文章链接: https://alpr.watch/ 评论链接: https://news.ycombinator.com/item?id=46290916 积分: 224 评论数: 114
在刚刚发布其 Olmo 基础模型最新版本后,Allen Institute for AI(Ai2)于周二推出了其开源视频模型 Molmo 2,……
AlphaFlow 为 MeanFlow 图像模型提供了更平滑的训练计划,减少了其两个目标之间的冲突,加速了学习。概述……
视频扩散模型已经彻底改变了生成视频合成,但它们不够精确、速度慢,并且在生成过程中可能不透明——让用户处于……
现代用于3D点云处理的神经架构同时包含卷积层和attention块,但如何最佳组合它们仍未明确……
视觉分词器(例如 VAEs)中的潜在空间质量对现代生成模型至关重要。然而,标准的基于重构的训练……
我们提出了循环视频掩码自编码器(Recurrent Video Masked‑Autoencoders,RVM):一种新颖的视频表示学习方法,使用 transformer‑based 循环神经网络来……
泛化仍然是 interactive 3D scene generation 的核心挑战。现有的 learning-based 方法将 spatial understanding 建立在有限的场景上。
近期的前馈重建模型,如 VGGT 和 π^3,取得了令人印象深刻的重建质量,但由于二次内存开销,它们无法处理流式视频。
近期在 image-to-3D 领域的进展为设计、AR/VR 和机器人技术打开了巨大的可能性。然而,要在实际应用中使用 AI 生成的 3D 资产,……
在本文中,我们提出了 JoVA,一个用于联合 video‑audio 生成的统一框架。尽管最近取得了令人鼓舞的进展,现有方法仍面临两个关键的限制……
我们引入了 Interactive Intelligence,这是一种新颖的数字人范式,能够实现与人格对齐的表达、自适应交互以及自我进化……
Textual Inversion(TI)是一种高效的 text-to-image 个性化方法,但在复杂提示下常常失败。我们将这些失败归因于 embedding norm。
灵巧的操作具有挑战性,因为它需要理解细微的手部运动如何通过与物体的接触影响环境。我们介绍…
通过鲁棒性评估对人工智能(AI)模型进行验证和确认,对于保证其在集成中的可靠性能至关重要……
我们引入 Do-Undo 任务和基准,以填补视觉语言模型中的关键空白:理解和生成物理上合理的场景转换……
近期在组织病理学中的深度学习框架,特别是与病理基础模型(PFMs)相结合的多实例学习(MIL),已经显示出……
真正的玩家会知道这张图中的雷尼尔山看起来太大了,但这张 AI 图像中对 Washington State 渡轮的再现令人毛骨悚然。这是 The Ste...
介绍:AI background remover 在运行良好时几乎像魔法一样令人惊叹——而在失效时则令人沮丧。差异通常归结为两个细微的……
3D Gaussian Splatting(3DGS)的最新成功通过实现快速优化和实时渲染高质量辐射,重新塑造了新视角合成。
大规模视频生成模型在对真实场景的逼真外观和光照交互建模方面展现了显著潜力。然而...
我们提出了 Particulate,这是一种前馈方法,给定单个静态的日常物体 3D 网格,直接推断出其底层结构的所有属性。
大规模且多样化的机器人示范数据的收集仍然是模仿学习的主要瓶颈,因为真实世界的数据获取成本高且 s...
现实是一场在刚性约束与可变结构之间的舞蹈。对于视频模型而言,这意味着生成既保持保真度又保持结构的运动……
在常规临床照片中准确量化白癜风的范围对于纵向监测治疗反应至关重要。我们提出一种可信的,f...
视频抠图仍受限于现有数据集的规模和真实感。虽然利用分割数据可以提升语义稳定性,但缺乏 effe...
模型指纹检测技术已经成为一种有前景的方法,用于将 AI 生成的图像归属到其源模型,但它们的鲁棒性仍然...
生成逼真的合成显微图像对于在标签稀缺的环境中训练深度学习模型至关重要,例如在细胞计数等任务中。
基于视觉基础模型(Visual Foundation Model,VFM)表征的视觉生成提供了一条极具前景的统一路径,用于整合视觉理解、感知……
对牙科中的多模态数据进行可靠的解释对于自动化口腔健康护理至关重要,然而当前的多模态大语言模型(MLLMs)仍面临困难……
在视频理解中,关键帧选择面临重大挑战。传统的 top‑K 选择方法会独立对帧进行打分,往往会失败于……
对边缘设备上实时 DNN 应用的需求日益增长,需要更快地推理日益复杂的模型。虽然许多设备包括 sp...
我们介绍了 StereoSpace,一个基于 diffusion 的 monocular-to-stereo 合成框架,它仅通过 viewpoint conditioning 来建模几何,而无需 …
生成式世界模型正在重塑具身 AI,使代理能够合成看起来逼真的 4D 驾驶环境,但往往在物理上失败……
在语言和视觉领域基础模型的成功激励了对全端到端机器人导航基础模型(NFMs)的研究。NFMs 直接映射单目……
视觉概念个性化旨在将特定的图像属性(如身份、表情、光照和风格)转移到未见过的场景中。然而……
我们在本工作中提出了一个名为 SceneMaker 的解耦 3D 场景生成框架。由于缺乏足够的 open-set de-occlusion 和 pose estimation 先验……
归一化流(Normalizing Flows,NFs)已被确立为生成建模的原则性框架。标准的 NFs 包含前向过程和逆向过程……
在本工作中,我们探索了扩散模型推理中未被利用的信号。虽然所有先前的方法在推理时都是独立生成图像的,但我们则提出……
自监督预训练已经彻底改变了语言、单幅2D图像和视频的foundation models,但在学习3D方面仍基本未被探索。
Reinforcement learning (RL),此前已被证明在大型语言模型和多模态模型中有效,已成功扩展用于提升二维图像生成……
All-in-One Image Restoration (AiOIR) 旨在在统一框架下从多种退化中恢复高质量图像。然而,现有方法常常 f...
近期,基于大型扩散模型的以主题为驱动的视频生成取得了重要进展,使得能够在用户提供的主题条件下进行个性化内容合成……
推理超越语言;现实世界需要对空间、时间、affordances,以及远超文字所能表达的诸多方面进行推理。现有的 multimo...
先前将相机控制注入扩散模型的方法主要聚焦于 4D 一致性任务的特定子集:新视角合成、文本到视频…
尽管归一化层长期被视为深度学习架构中不可或缺的组成部分,最近引入的 Dynamic Tanh (DyT) 已经……