computer vision — Page 12

排序:

2个月前 · ai · - · -

[Paper] 通过将检测头融入上下文层神经网络实现多头自动分割

基于 deep learning 的 auto segmentation 正在放射治疗中日益广泛使用，但传统模型常常产生解剖上不合理的假阳性，或 h...

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] MentisOculi: 揭示使用心理意象进行推理的局限性

前沿模型正从仅仅摄取视觉信息的多模态大语言模型（MLLMs）转向统一多模态模型（UMMs），具备……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] RANKVIDEO：推理重新排序用于文本到视频检索

重新排序是现代检索系统的关键组成部分，这类系统通常将高效的第一阶段检索器与更具表达能力的模型配对，以细化检索结果……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] UniReason 1.0：一个用于世界知识对齐的图像生成与编辑的统一推理框架

统一的多模态模型在需要深度推理的复杂合成任务上常常表现不佳，且通常将 text-to-image generation 和 image editing 视为……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[论文] SelvaMask：热带森林及其他地区的树木分割

热带森林拥有地球上大多数树木的生物多样性，对全球生态平衡至关重要。Canopy trees 尤其发挥了不成比例的作用……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] Catalyst：通过弹性缩放进行分布外检测

Out-of-distribution（OOD）检测对于深度神经网络的安全部署至关重要。最先进的后置（post-hoc）方法通常会推导 OOD 分数 f...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] ReasonEdit：使用人类推理编辑视觉语言模型

Model editing 旨在纠正大型、预训练模型中的错误，而不改变无关的行为。虽然一些近期工作已经编辑了 vision-language model……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] SoMA：Real-to-Sim 神经模拟器用于机器人软体操作

在丰富交互下模拟可变形对象仍然是 real-to-sim 机器人操作的根本挑战，其动力学由环境等因素共同驱动。

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[论文] Superman：统一 Skeleton 与 Vision 用于 Human Motion 感知与生成

人类动作分析任务，如 temporal 3D pose estimation、motion prediction 和 motion in‑betweening，在计算机视觉中发挥着关键作用。然而...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

Carbon Robotics 构建了一个用于检测和识别植物的 AI 模型

Carbon Robotics 的 Large Plant Model 将使农民能够在无需重新训练机器的情况下消灭新型杂草……

#AI #computer vision #plant identification #weed control #agricultural robotics #Carbon Robotics #large plant model
2个月前 · ai · - · -

[Paper] 多视图狭窄分类：利用基于Transformer的多实例学习处理真实世界临床数据

冠状动脉狭窄是心血管疾病的主要原因之一，通过分析多视角血管造影中的冠状动脉进行诊断。虽然 nu...

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 一体多用：对齐多样的群体点击偏好在大规模广告图像生成中

广告图像生成越来越关注在线指标，如点击率（CTR），但现有方法采用“一刀切”的策略……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 通过光学字符识别重新思考基因组建模

近期的基因组基础模型在很大程度上采用大型语言模型架构，将DNA视为一维 token 序列。然而，穷尽的...

#research #paper #ai #machine-learning #nlp #computer-vision
2个月前 · ai · - · -

[Paper] UniDriveDreamer：单阶段多模态世界模型用于自动驾驶

World models 已经在自动驾驶的数据合成方面展示了显著的潜力。然而，现有方法主要集中在单模态……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] SurfSplat：征服前馈 2D Gaussian Splatting 与表面连续性先验

从稀疏图像重建3D场景仍然是一项具有挑战性的任务，因为在没有优化的情况下难以恢复准确的几何形状和纹理。R...

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

如何使用 AI 将原始产品照片转化为工作室质量图像

为暗淡、光线不足、无法带来销量的原始产品照片而苦恼吗？在2026年，AI产品摄影增强技术可以让您将原始拍摄转化为工作室级别的高质量图像。

#AI image enhancement #product photography #e‑commerce visuals #Olio AI #computer vision #studio‑quality images
2个月前 · ai · - · -

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

虽然最近的视频扩散模型（VDMs）产生了视觉上令人印象深刻的结果，但它们在保持3D结构一致性方面根本存在困难，往往导致……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[论文] XR 环境中 Open-Set Object Detection 的用户提示策略与提示增强方法

开放集目标检测（Open-set object detection，OSOD）在推理时定位对象的同时，识别并拒绝未知类别。虽然最近的 OSOD 模型在基准测试中表现良好……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 去噪深空：基于物理的 CCD 噪声形成用于天文成像

Astronomical imaging 在实际 observing constraints 下仍然是 noise‑limited 的，而 standard calibration pipelines 主要去除 structured artifacts 和 le...

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] PaperBanana：为 AI 科学家自动化学术插图

尽管基于语言模型的自主 AI 科学家取得了快速进展，生成可用于出版的插图仍然是一个劳动密集型的瓶颈。

#research #paper #ai #nlp #computer-vision
2个月前 · ai · - · -

[论文] 无训练的测试时适应与 Brownian Distance Covariance 在视觉语言模型中的应用

视觉语言模型在领域迁移下性能下降，限制了其在真实世界中的适用性。现有的测试时适应方法在计算上……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 跨尺度结构化：从教育视频中学习空间推理

Vision-language models (VLM) 在标准视频理解基准上表现出色，但在简单推理任务上系统性地失败……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] ShotFinder：想象驱动的开放域视频片段检索 via Web Search

近年来，大型语言模型（LLMs）在信息检索方面取得了快速进展，但现有研究主要集中在文本或静态多……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] Video-o3：原生交错线索寻求用于长视频多跳推理

现有用于长视频理解的 multimodal large language models 主要依赖 uniform sampling 和 single-turn inference，限制了它们的能力 …

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 区域归一化 DPO 在噪声评审者下的医学图像分割

虽然密集的像素级标注仍然是医学图像分割的黄金标准，但获取成本高且限制了可扩展性。相比之下，许多 d...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] Med-Scout：通过 Geometry-Aware RL 后训练治愈 MLLMs 在医学感知中的几何盲点

尽管近期多模态大型语言模型（MLLMs）在医学诊断方面展现出语言上的卓越能力，但我们发现即使是最先进的MLLMs也存在一个关键的……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] SQUAD：可扩展的 Quorum 自适应决策 via early exit 神经网络集成

Early‑exit 神经网络因能够在达到足够置信度时进行中间预测，从而降低推理延迟，已变得流行。然而…

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 使用 Pixel Mean Flows 的一步 Latent-free 图像生成

现代的 diffusion/flow-based 模型用于图像生成通常具有两个核心特征：(i) 使用多步采样，(ii) 在 latent …

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] UEval：统一多模态生成基准

我们推出了 UEval，这是一套用于评估统一模型的基准测试，即能够同时生成图像和文本的模型。UEval 包含 1,000 条专家策划的问题……

#research #paper #ai #nlp #computer-vision
2个月前 · ai · - · -

[Paper] DynamicVLA：用于动态对象操作的视觉-语言-动作模型

操纵动态对象仍然是视觉-语言-动作（Vision-Language-Action，VLA）模型的一个未解决的挑战，尽管这些模型在静态操纵方面表现出强大的泛化能力，却仍然...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] VLM是感知还是回忆？使用经典视觉错觉探究视觉感知与记忆

大型视觉语言模型（VLMs）常常在原始图像上对经典视觉错觉给出“正确”的答案，但在错觉事实出现时仍坚持相同的回应……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] JUST-DUB-IT：通过 Joint Audio-Visual Diffusion 实现视频配音

Audio-Visual Foundation Models，作为预训练模型，能够联合生成声音和视觉内容，最近展现出前所未有的建模多模态的能力……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 路由彩票：用于异构数据的自适应子网络

在剪枝中，Lottery Ticket Hypothesis 假设大型网络包含稀疏子网络（即 winning tickets），这些子网络可以单独训练，以匹配 …

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] PI-Light：Physics-Inspired Diffusion 用于全图重新照明

Full-image relighting 仍然是一个具有挑战性的问题，因为收集 large-scale structured paired data 的难度，以及保持物理…

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 基于CT的胰腺癌早期及诊前检测

胰腺导管腺癌（PDAC）是最致命的实体恶性肿瘤之一，常在晚期且不可手术的阶段被发现。对既往的…进行回顾性审查。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] EditYourself：Audio-Driven 生成与操控 Talking Head 视频，使用 Diffusion Transformers

当前的生成式视频模型在根据文本和图像提示生成新内容方面表现出色，但在编辑已有的预录制视频方面仍存在关键缺口，……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 使用 Diffusion Model 的创意图像生成

创意图像生成已成为一个引人注目的研究领域，驱动力在于需要产生新颖且高质量的图像，以拓展边界。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

不仅仅是一张照片：使用 SAM 和 GPT-4o 构建像素级卡路里估算器

我们都经历过这种情形：盯着一盘美味的意大利面，试图把每克重量手动记录到 fitness app 中。这很繁琐，容易出现“乐观”的人为错误……

#segment-anything #gpt-4o #computer-vision #multimodal #fastapi
2个月前 · ai · - · -

[Paper] 务实的 VLA 基础模型

在机器人操作中展现出巨大潜力，具备能力的 Vision‑Language‑Action (VLA) 基础模型有望在各类任务间忠实地实现泛化并且……

#vision-language-action #robotics #foundation-model #computer-vision #machine-learning
2个月前 · ai · - · -

[Paper] 稳健感知测地线上的反事实解释

潜在空间优化方法用于反事实解释——将其框定为改变模型预测的最小语义扰动——继承了模糊性……

#counterfactual explanations #perceptual geodesics #computer vision #machine learning #robustness
2个月前 · ai · - · -

[Paper] Splat-Portrait：使用 Gaussian Splatting 泛化 Talking Heads

Talking Head Generation 旨在从语音和单张肖像图像合成自然逼真的说话视频。先前的 3D Talking Head Generation 方法……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] CONQUER：上下文感知表示与查询增强用于基于文本的人员搜索

文本检索人物搜索（TBPS）旨在使用自然语言描述从大型图库中检索行人图像。该任务对于公共安全……

#text-based person search #cross-modal retrieval #computer vision #query enhancement #optimal transport
3个月前 · ai · - · -

使用 Python 在 Kaggle 上入门图像分类

封面图片：使用 Python 在 Kaggle 上开始图像分类 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravit...

#image classification #Kaggle #Python #machine learning #deep learning #computer vision
3个月前 · ai · - · -

衡量 XAI 中公理非敏感性的正确方法

正确衡量公理化非敏感性的方法为什么你的 XAI 指标可能会欺骗你——以及我们是如何修复的如果你曾经尝试实际衡量其稳定性……

#XAI #explainability #non-sensitivity #attribution maps #AIXPlainer #metric evaluation #deep learning #computer vision
3个月前 · ai · - · -

【论文】UniX：统一自回归与扩散用于胸部X光的理解与生成

尽管最近取得了进展，medical foundation models 仍然难以统一 visual understanding 和 generation，因为这些任务本质上目标冲突……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

最近在3D形状生成方面的进展取得了令人印象深刻的成果，但大多数现有方法依赖于干净、未被遮挡且分割良好的输入。这种...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] ReScene4D：针对演化的室内3D场景的时间一致语义实例分割

室内环境会随着物体的移动、出现或消失而演变。捕捉这些动态需要在整个过程保持时间上一致的实例身份……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] CTest-Metric：统一框架评估用于CT报告生成的指标的临床有效性

在 generative AI 时代，即使关键的医疗任务也日益实现自动化，radiology report generation (RRG) 仍然依赖于 suboptimal metric……

#research #paper #ai #nlp #computer-vision

Newer posts

Older posts