[Paper] 通过将检测头融入上下文层神经网络实现多头自动分割
基于 deep learning 的 auto segmentation 正在放射治疗中日益广泛使用,但传统模型常常产生解剖上不合理的假阳性,或 h...
基于 deep learning 的 auto segmentation 正在放射治疗中日益广泛使用,但传统模型常常产生解剖上不合理的假阳性,或 h...
前沿模型正从仅仅摄取视觉信息的多模态大语言模型(MLLMs)转向统一多模态模型(UMMs),具备……
重新排序是现代检索系统的关键组成部分,这类系统通常将高效的第一阶段检索器与更具表达能力的模型配对,以细化检索结果……
统一的多模态模型在需要深度推理的复杂合成任务上常常表现不佳,且通常将 text-to-image generation 和 image editing 视为……
热带森林拥有地球上大多数树木的生物多样性,对全球生态平衡至关重要。Canopy trees 尤其发挥了不成比例的作用……
Out-of-distribution(OOD)检测对于深度神经网络的安全部署至关重要。最先进的后置(post-hoc)方法通常会推导 OOD 分数 f...
Model editing 旨在纠正大型、预训练模型中的错误,而不改变无关的行为。虽然一些近期工作已经编辑了 vision-language model……
在丰富交互下模拟可变形对象仍然是 real-to-sim 机器人操作的根本挑战,其动力学由环境等因素共同驱动。
人类动作分析任务,如 temporal 3D pose estimation、motion prediction 和 motion in‑betweening,在计算机视觉中发挥着关键作用。然而...
Carbon Robotics 的 Large Plant Model 将使农民能够在无需重新训练机器的情况下消灭新型杂草……
冠状动脉狭窄是心血管疾病的主要原因之一,通过分析多视角血管造影中的冠状动脉进行诊断。虽然 nu...
广告图像生成越来越关注在线指标,如点击率(CTR),但现有方法采用“一刀切”的策略……
近期的基因组基础模型在很大程度上采用大型语言模型架构,将DNA视为一维 token 序列。然而,穷尽的...
World models 已经在自动驾驶的数据合成方面展示了显著的潜力。然而,现有方法主要集中在单模态……
从稀疏图像重建3D场景仍然是一项具有挑战性的任务,因为在没有优化的情况下难以恢复准确的几何形状和纹理。R...
为暗淡、光线不足、无法带来销量的原始产品照片而苦恼吗?在2026年,AI产品摄影增强技术可以让您将原始拍摄转化为工作室级别的高质量图像。
虽然最近的视频扩散模型(VDMs)产生了视觉上令人印象深刻的结果,但它们在保持3D结构一致性方面根本存在困难,往往导致……
开放集目标检测(Open-set object detection,OSOD)在推理时定位对象的同时,识别并拒绝未知类别。虽然最近的 OSOD 模型在基准测试中表现良好……
Astronomical imaging 在实际 observing constraints 下仍然是 noise‑limited 的,而 standard calibration pipelines 主要去除 structured artifacts 和 le...
尽管基于语言模型的自主 AI 科学家取得了快速进展,生成可用于出版的插图仍然是一个劳动密集型的瓶颈。
视觉语言模型在领域迁移下性能下降,限制了其在真实世界中的适用性。现有的测试时适应方法在计算上……
Vision-language models (VLM) 在标准视频理解基准上表现出色,但在简单推理任务上系统性地失败……
近年来,大型语言模型(LLMs)在信息检索方面取得了快速进展,但现有研究主要集中在文本或静态多……
现有用于长视频理解的 multimodal large language models 主要依赖 uniform sampling 和 single-turn inference,限制了它们的能力 …
虽然密集的像素级标注仍然是医学图像分割的黄金标准,但获取成本高且限制了可扩展性。相比之下,许多 d...
尽管近期多模态大型语言模型(MLLMs)在医学诊断方面展现出语言上的卓越能力,但我们发现即使是最先进的MLLMs也存在一个关键的……
Early‑exit 神经网络因能够在达到足够置信度时进行中间预测,从而降低推理延迟,已变得流行。然而…
现代的 diffusion/flow-based 模型用于图像生成通常具有两个核心特征:(i) 使用多步采样,(ii) 在 latent …
我们推出了 UEval,这是一套用于评估统一模型的基准测试,即能够同时生成图像和文本的模型。UEval 包含 1,000 条专家策划的问题……
操纵动态对象仍然是视觉-语言-动作(Vision-Language-Action,VLA)模型的一个未解决的挑战,尽管这些模型在静态操纵方面表现出强大的泛化能力,却仍然...
大型视觉语言模型(VLMs)常常在原始图像上对经典视觉错觉给出“正确”的答案,但在错觉事实出现时仍坚持相同的回应……
Audio-Visual Foundation Models,作为预训练模型,能够联合生成声音和视觉内容,最近展现出前所未有的建模多模态的能力……
在剪枝中,Lottery Ticket Hypothesis 假设大型网络包含稀疏子网络(即 winning tickets),这些子网络可以单独训练,以匹配 …
Full-image relighting 仍然是一个具有挑战性的问题,因为收集 large-scale structured paired data 的难度,以及保持物理…
胰腺导管腺癌(PDAC)是最致命的实体恶性肿瘤之一,常在晚期且不可手术的阶段被发现。对既往的…进行回顾性审查。
当前的生成式视频模型在根据文本和图像提示生成新内容方面表现出色,但在编辑已有的预录制视频方面仍存在关键缺口,……
创意图像生成已成为一个引人注目的研究领域,驱动力在于需要产生新颖且高质量的图像,以拓展边界。
我们都经历过这种情形:盯着一盘美味的意大利面,试图把每克重量手动记录到 fitness app 中。这很繁琐,容易出现“乐观”的人为错误……
在机器人操作中展现出巨大潜力,具备能力的 Vision‑Language‑Action (VLA) 基础模型有望在各类任务间忠实地实现泛化并且……
潜在空间优化方法用于反事实解释——将其框定为改变模型预测的最小语义扰动——继承了模糊性……
Talking Head Generation 旨在从语音和单张肖像图像合成自然逼真的说话视频。先前的 3D Talking Head Generation 方法……
文本检索人物搜索(TBPS)旨在使用自然语言描述从大型图库中检索行人图像。该任务对于公共安全……
封面图片:使用 Python 在 Kaggle 上开始图像分类 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravit...
正确衡量公理化非敏感性的方法 为什么你的 XAI 指标可能会欺骗你——以及我们是如何修复的 如果你曾经尝试实际衡量其稳定性……
尽管最近取得了进展,medical foundation models 仍然难以统一 visual understanding 和 generation,因为这些任务本质上目标冲突……
最近在3D形状生成方面的进展取得了令人印象深刻的成果,但大多数现有方法依赖于干净、未被遮挡且分割良好的输入。这种...
室内环境会随着物体的移动、出现或消失而演变。捕捉这些动态需要在整个过程保持时间上一致的实例身份……
在 generative AI 时代,即使关键的医疗任务也日益实现自动化,radiology report generation (RRG) 仍然依赖于 suboptimal metric……