computer vision — Page 13

排序:

3个月前 · ai · - · -

[Paper] 生成式场景展开用于端到端自动驾驶

Vision-Language-Action（VLA）模型正逐渐成为端到端自动驾驶系统中极为有效的规划模型。然而，当前的工作大多…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] MHA2MLA-VLM：在视觉-语言模型中实现 DeepSeek 的经济型多头潜在注意力

随着视觉语言模型（VLMs）处理日益复杂和多模态的任务，键值（KV）缓存的快速增长对内存和计算资源提出了显著的压力……

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

[Paper] PRISM-CAFO：先验条件化遥感基础设施分割与映射用于CAFOs

大型畜牧业对人类健康和环境构成重大风险，同时也易受到诸如传染病等威胁。

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 何时两个评分优于一个？探索 Diffusion Models 的集成

Diffusion models 现在能够生成高质量、多样化的样本，且对更强大模型的关注日益增加。虽然 ensembling 是一种众所周知的提升方法……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] Map2Thought：通过度量认知地图进行显式3D空间推理

我们提出了 Map2Thought，一个能够为 3D VLM 提供显式且可解释的空间推理的框架。该框架基于两个关键组件：Metr...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] PubMed-OCR: PMC 开放获取 OCR 注释

PubMed-OCR 是一个以 OCR 为中心的科学文章语料库，来源于 PubMed Central Open Access PDFs。每页图像都使用 Google Cloud Vision 进行标注……

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

从 RGB 到 Lab：解决 AI 图像合成中的颜色伪影

一种多层次的分割、颜色校正和特定领域增强方法。文章《从RGB到Lab：解决AI图像合成中的颜色伪影》

#image compositing #color correction #RGB #Lab color space #segmentation #computer vision #deep learning #AI image processing
3个月前 · ai · - · -

[Paper] WildRayZer：自监督大视角合成在动态环境中

我们提出了 WildRayZer，一个用于新视角合成（NVS）的自监督框架，适用于相机和物体同时移动的动态环境。动态内容…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Alterbute: 编辑图像中对象的内在属性

我们介绍了 Alterbute，这是一种基于 diffusion 的方法，用于编辑图像中对象的内在属性。我们可以改变颜色、纹理、材料，甚至……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 从一对一到多对多：动态跨层注入用于深度视觉-语言融合

Vision-Language Models (VLMs) 通过使用一种粗糙、非对称的连接，仅将 vision encoder 的输出链接起来，造成了严重的视觉特征瓶颈……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 少看，多开：通过 Foundation Models 的随机补丁选择实现可推广的端到端自动驾驶

近期在端到端自动驾驶方面的进展表明，从基础模型中提取的补丁对齐特征训练的策略在对 Out-... 的泛化能力更强。

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] CURVE：文化与多语言长视频推理基准

最近在视频模型方面取得了巨大的进展，尤其是在长视频理解方面。然而，当前的基准测试主要呈现……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] CoMoVi：3D 人体动作与真实视频的协同生成

在本文中，我们发现3D人体动作和2D人体视频的生成本质上是耦合的。3D动作为合理性提供结构先验……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Molmo2：开放权重和数据用于具备视频理解与定位的视觉-语言模型

当今最强的视频语言模型（VLM）仍然是专有的。最强的开源权重模型要么依赖于来自专有 VLM 的合成数据，有效地……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[论文] 多目标Pareto前沿优化用于高效自适应VVC流媒体

自适应视频流在过去几年中促进了视频流的改进。需要在比特率、视频质量等编码性能目标之间取得平衡……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] RSATalker：面向多轮对话的真实社交感知 Talking Head 生成

Talking head generation 在虚拟现实（VR）中变得日益重要，尤其是在涉及多轮对话的社交场景中。现有方法……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Action100M: 大规模视频动作数据集

从视觉观察中推断物理动作是推动 machine intelligence 在物理世界中发展的基本能力。实现这一点需要…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] MHub.ai：简洁、标准化且可复现的医学影像AI模型平台

人工智能（AI）有潜力通过自动化图像分析和加速临床研究来改变医学影像。然而，研究 a...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

全新 Apple 模型将视觉理解与图像生成相结合，取得惊人效果

Apple 研究人员已发表了一项关于 Manzano 的研究，Manzano 是一种多模态模型，结合了视觉理解和文本到图像生成，同时显著……

#Apple #multimodal AI #vision-language model #text-to-image generation #Manzano #computer vision #generative AI #AI research
3个月前 · ai · - · -

[Paper] Fast-ThinkAct：通过可言语化潜在规划实现高效的 Vision-Language-Action 推理

Vision-Language-Action (VLA) 任务需要对复杂视觉场景进行推理，并在动态环境中执行自适应动作。虽然最近的研究关于 …

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] SAM3-DMS：解耦记忆选择用于 SAM3 的多目标视频分割

Segment Anything 3 (SAM3) 已经建立了一个强大的基础，能够在视频中稳健地检测、分割和跟踪指定目标。然而，在其原始…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] COMPOSE：超图覆盖优化用于多视角 3D 人体姿态估计

从稀疏多视角进行 3D pose estimation 是众多应用的关键任务，包括 action recognition、sports analysis 和 human-robot interaction 等。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] 高效相机控制的静态场景视频生成：稀疏扩散与3D渲染

基于扩散模型的现代视频生成模型能够生成非常逼真的片段，但它们计算效率低下，通常需要数分钟的……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] LLMs 可以压缩 LLMs：由代理进行的自适应剪枝

随着大型语言模型（LLMs）持续扩展，后训练剪枝已成为一种有前景的方法，可在保持性能的同时降低计算成本……

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

[Paper] STEP3-VL-10B 技术报告

我们推出 STEP3-VL-10B，这是一款轻量级开源基础模型，旨在重新定义紧凑效率与前沿水平多模态之间的权衡……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] SCE-SLAM：通过场景坐标嵌入实现尺度一致的单目 SLAM

单目视觉SLAM能够从互联网视频进行3D重建，并在资源受限的平台上实现自主导航，但却受到尺度漂移的影响，…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 自监督动物识别用于长视频

在长时段视频中识别单个动物对于行为生态学、野生动物监测和畜牧管理至关重要。传统方法 r...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] LiteEmbed：适配 CLIP 到稀有类别

大规模视觉语言模型（如 CLIP）能够实现强大的零样本识别，但在预训练期间很少见到的类别上表现不佳，包括……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Image2Garment：从单张图像生成可用于仿真的服装

从单张图像估计物理上准确、simulation-ready 的服装具有挑战性，因为缺乏 image-to-physics 数据集，并且该问题是病态的 n...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] 揭示文本到图像排行榜背后的模型

文本到图像（T2I）模型日益流行，产生了大量在线的 AI 生成图像。为了比较模型质量，基于投票的排行榜……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] PersonalAlign：层次化隐式意图对齐用于个性化 GUI 代理的长期用户中心记录

虽然 GUI 代理在明确指令和完成指令下表现出强大的性能，但在实际部署中需要与用户更复杂的实现保持一致。

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

CNN之战：ResNet vs. MobileNet vs. EfficientNet 用于水果疾病检测

引言我一直对 deep learning 如何解决现实世界问题感到着迷，而 fruit disease detection 似乎是完美的挑战——不是...

#fruit disease detection #ResNet #MobileNet #EfficientNet #deep learning #computer vision #image classification #agricultural AI
3个月前 · ai · - · -

[Paper] RAVEN：通过新视角合成消除不可见水印

隐形水印已成为验证 AI 生成图像内容的关键机制，主要平台正在大规模部署水印方案……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 3AM：在视频中实现几何一致性的 Segment Anything

像 SAM2 这样的 Video object segmentation 方法通过基于 memory 的架构实现了强大的性能，但在视角大幅变化时会因可靠性…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 视频生成的运动归因

尽管视频生成模型取得了快速进展，但数据在影响运动方面的作用仍然了解不足。我们提出了 Motive（MOTIon attribution for Vi...）。

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 推理对 3D Visual Grounding 很重要

最近大型语言模型（LLMs）在强推理能力方面的发展推动了数学、编码和科学等多个领域的研究。

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] S3-CLIP：视频超分辨率用于Person-ReID

在大多数人物再识别（ReID）方法中，Tracklet 质量常常被视为事后考虑，绝大多数研究仅关注架构的修改……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 近乎完美的 Hula 彩绘青蛙照片识别，使用 zero-shot deep local-feature matching

准确的个体识别对于监测稀有两栖动物至关重要，但侵入性标记往往不适用于极危物种。我们 e...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] DentalX：上下文感知牙科疾病检测与放射影像

从 radiographs 中诊断牙科疾病既耗时又具挑战性，因为诊断证据往往非常微妙。现有方法依赖于……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 聚合多样线索专家用于AI生成图像检测

图像合成模型的快速出现对 AI 生成图像检测器的泛化能力构成了挑战。然而，现有方法往往依赖于 mo...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 使用 CycleGAN 将 Light‑Sheet Microscopy 图像转换为虚拟 H&E

组织病理学分析依赖于苏木精-伊红（H&E）染色，但荧光显微镜提供了互补的信息。将荧光…

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] M3CoTBench：医学图像理解中 MLLMs 的 Chain-of-Thought 基准

Chain-of-Thought (CoT) 推理已被证明能够通过鼓励逐步的中间推理来提升大语言模型的效果，近期的进展……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 通过基于事件的上下文和置信度提升大语言模型在零样本 ADL 识别中的表现

通过处理从物联网传感设备收集的数据，在智能家居中进行基于无侵入式传感器的日常活动（Activities of Daily Living，ADLs）识别，支持应用……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] SecureCAI：面向网络安全运营的抗注入LLM助手

大型语言模型已成为安全运营中心的变革性工具，能够实现自动化日志分析、网络钓鱼分流和恶意软件解释……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 免调参视觉效果跨视频转移

我们提出 RefVFX，一个新的框架，以前馈方式将复杂的 temporal effects 从 reference video 转移到 target video 或 image 上。虽然 e...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] MHLA：通过 Token 级多头恢复线性注意力的表达能力

虽然 Transformer 架构在许多领域占据主导地位，但其二次方的 self-attention 复杂度阻碍了其在大规模应用中的使用。Linear attention …

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 更多图像，更多问题？对 VLM 失效模式的受控分析

大型视觉语言模型（LVLMs）已经展示了卓越的能力，但它们在理解和推理多张图像方面的熟练程度仍然……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Exchange 是遥感变化检测所需的一切

遥感变化检测根本上依赖于对双时相特征的有效融合和判别。主流范式通常采用…

#research #paper #ai #computer-vision

Newer posts

Older posts