computer vision — Page 8

排序:

1个月前 · ai · - · -

[Paper] NEGATE：受约束的语义引导用于文本到视频扩散中的语言否定

否定是一个基本的语言运算符，但在 diffusion-based generative systems 中仍未得到充分建模。在本工作中，我们提出了一个形式化的……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[论文] 基于Transformer的Inpainting用于稀疏多摄像头设置的实时3D流媒体

高质量的多摄像头3D流媒体对于许多 AR/VR 应用中的沉浸式体验至关重要。视角数量受限——通常是由于真实…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 面向多模态终身理解：数据集与 Agentic 基线

虽然用于视频理解的数据集已经扩展到小时级时长，但它们通常由密集拼接的片段组成，这些片段与自然的、未剪辑的...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 面向使用神经辐射场的LWIR高光谱图像中气体羽流的3D场景理解

高光谱图像（HSI）有许多应用，范围从环境监测到国家安全，可用于材料检测和识别……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] RealWonder: 实时物理动作条件视频生成

当前的视频生成模型无法模拟3D动作的物理后果，如力和机器人操作，因为它们缺乏结构理解……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测（trajectory forecasting）和人体姿态预测（human pose prediction）这两个任务结合在一起。针对这两个任务，已经开发了专门的模型……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] ZipMap：线性时间有状态3D重建与测试时训练

前馈Transformer模型推动了3D视觉的快速进展，但诸如VGGT和π³等最先进的方法的计算成本随……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] TaxonRL：强化学习与中间奖励用于可解释的细粒度视觉推理

传统的 vision-language models 在对比细粒度分类推理方面表现不佳，尤其是在区分外观相似的物种时……

#research #paper #ai #nlp #computer-vision
1个月前 · ai · - · -

[Paper] RANGER: 稀疏门控混合专家与自适应检索再排序用于病理报告生成

病理报告生成仍然是一个相对未被充分探索的下游任务，主要是由于其 gigapixel 规模和复杂的形态异质性。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 基础模型预训练数据中代表性不足？一次性探测

大规模视觉语言基础模型（VLFMs），例如 CLIP，现已支撑广泛的计算机视觉研究和应用。VLFMs 通常是 ada...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] Pointer-CAD：通过基于指针的边缘与面选择统一 B-Rep 与命令序列

构建计算机辅助设计（CAD）模型工作量大，但对工程和制造至关重要。近期在大型语言模型（LL...）取得了重要进展。

#research #paper #ai #nlp #computer-vision
1个月前 · ai · - · -

[Paper] Utonia：面向所有点云的单一编码器

我们梦想着一个未来，所有领域的 point clouds 能够汇聚在一起，塑造一个惠及所有领域的单一模型。为实现这一目标，我们提出了 Utonia，...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] MIBURI：面向富有表现力的交互式手势合成

具身对话代理（Embodied Conversational Agents，ECAs）旨在通过语音、手势和面部表情来模拟人类面对面的互动。当前的大型语言模型……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 如何用刀剥离：将细粒度操作与人类偏好对齐

许多关键的操作任务——例如食品准备、外科手术和工艺制作——对自主机器人仍然难以解决。这些任务的特征是…

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] ULTRA：面向自主类人全身 Loco-Manipulation 的统一多模态控制

实现自主且多功能的 whole-body loco-manipulation 仍然是使 humanoids 实际有用的核心障碍。然而，现有的方法仍然不足……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

Tether：自主功能性玩耍与Correspondence-Driven Trajectory Warping

进行交互并从经验中学习的能力是机器人学的核心挑战，提供了一种可扩展的替代方案，以取代劳动密集型的人类 de...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] LoGeR：长上下文几何重建与混合记忆

Feedforward geometric foundation models 在短窗口重建方面表现强劲，但将其扩展到分钟级视频时受到 quadratic attention 的瓶颈限制。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] UniG2U-Bench：统一模型是否推动多模态理解的进步？

统一的多模态模型最近展示了强大的生成能力，但生成何时以及是否提升了理解仍不清楚。Exi...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] MoD-DPO：通过模态解耦偏好优化缓解全能大语言模型中的跨模态幻觉

Omni-modal 大语言模型（omni LLMs）最近在视听理解任务上取得了强劲的表现，但它们仍然高度易受…

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai · - · -

[Paper] HiFi-Inpaint：面向高保真基于参考的图像修复，以生成细节保留的人体‑产品图像

Human-product images（展示人类与产品融合的图像）在广告、电子商务和数字营销中发挥着至关重要的作用。关键是……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[论文] Sketch2Colab：草图条件的多人物动画通过可控流蒸馏

我们提出了 Sketch2Colab，它将 storyboard 风格的 2D 草图转换为连贯、具备对象感知的 3D 多人物动作，并对 agents、关节等实现细粒度控制。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 利用 Model Soups 对湄公河三角洲的非物质文化遗产图像进行分类

湄公河三角洲的非物质文化遗产（ICH）图像分类因标注数据有限、视觉相似度高等因素而面临独特的挑战……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] Kiwi-Edit：多功能视频编辑：通过指令和参考引导

基于指令的视频编辑取得了快速进展，但现有方法常常在精确的视觉控制方面遇到困难，因为自然语言本质上是……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 更大是否总是更好？资源受限小目标检测的效率分析

Scaling laws 假设在更多数据上训练的更大模型始终优于较小的模型——这一假设驱动了计算机视觉中的模型选择，但……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] OmniRet：高效且高保真全模态检索

多模态检索是将跨异构模态的查询信息聚合，以检索所需目标的任务。最先进的多模态……

#research #paper #ai #nlp #computer-vision
1个月前 · ai · - · -

[Paper] UFO-4D：无姿态前馈式四维重建（基于两张图像）

从未标定的图像进行密集的4D重建仍然是一个关键挑战，现有方法依赖于缓慢的test-time优化或碎片化的、task-specific……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] Mode Seeking 与 Mean Seeking 相结合，实现快速长视频生成

将 video generation 从秒级扩展到分钟级面临一个关键瓶颈：虽然 short‑video 数据丰富且 high‑fidelity，但 coherent long‑form 数据却是……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 分层动作学习用于弱监督动作分割

人类通过关键转变来感知动作，这些转变在多个抽象层次上结构化动作，而机器则依赖视觉特征，往往……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 联合几何与轨迹一致性学习用于一步真实世界超分辨率

基于扩散的真实世界图像超分辨率（Real-ISR）在感知质量上表现出色，但由于迭代采样导致的高计算成本而受到限制。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] MuViT：多分辨率 Vision Transformers 在显微镜中的跨尺度学习

现代显微镜常规产生千兆像素图像，包含跨多个空间尺度的结构，从细胞形态的细微特征到更广阔的组织或……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] SenCache：通过敏感度感知缓存加速扩散模型推理

Diffusion models 实现了 state-of-the-art 视频生成质量，但由于需要大量的 sequential denoising steps，inference 仍然非常昂贵……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 多模态大语言模型的不确定性量化与不一致性校正语义体积

尽管具备强大能力，Multimodal Large Language Models（MLLMs）仍可能产生看似合理却错误的输出，阻碍可靠部署。准确的……

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai · - · -

[Paper] MediX-R1: 开放式医学强化学习

我们介绍了 MediX‑R1，一个面向医学多模态大语言模型（MLLMs）的开放式强化学习（RL）框架，能够实现临床基础的……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] VGG-T³：离线前馈式大规模3D重建

我们提出了一种可扩展的 3D reconstruction 模型，解决了离线 feed‑forward 方法的一个关键限制：它们的计算和内存需求……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] SeeThrough3D：遮挡感知的3D控制在文本到图像生成中

我们将 occlusion reasoning 视为 3D layout‑conditioned generation 的一个基础但被忽视的方面。它对于合成部分遮挡的……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 传感器泛化用于自适应感知的事件驱动目标检测 via 联合分布训练

受生物启发的事件相机因其异步和低延迟特性最近吸引了大量研究。这些特性提供了高 dy...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 规模无法克服语用学：报告偏差对 Vision-Language Reasoning 的影响

在视觉语言模型（VLMs）的推理能力缺乏一直是研究讨论的前沿。我们认为这种行为源于……

#research #paper #ai #nlp #computer-vision
1个月前 · ai · - · -

[Paper] 检索与分割：少量示例足以弥合 Open-Vocabulary Segmentation 中的监督差距吗？

Open-vocabulary segmentation (OVS) 将视觉语言模型 (VLMs) 的零样本识别能力扩展到像素级预测，使得能够对…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] ThinkOmni：通过 Guidance Decoding 将文本推理提升至 Omni-modal 场景

Omni-modal reasoning 对于智能系统理解并从多样化数据源中进行推断是必不可少的。虽然现有的 omni-modal large language …

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] PRIMA：风险集成的图像-元数据对齐预训练用于基于 LLM 的医学诊断

医学诊断需要有效地综合视觉表现和临床元数据。然而，现有方法往往将元数据视为孤立的任务……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] ManifoldGD：免训练层次流形引导用于基于扩散的数据集蒸馏

近年来，大规模数据集阻碍了高效的模型训练，同时也包含冗余概念。Dataset distillation 旨在合成紧凑的数据集……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[论文] Neu-PiG：神经预条件网格用于长序列的快速动态表面重建

从非结构化点云数据中对动态3D对象进行时间一致的表面重建仍然具有挑战性，尤其是对于非常长的序列。E...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[论文] WHOLE：基于世界坐标的手-对象提升来自第一人称视频

Egocentric manipulation videos 在交互过程中由于严重遮挡以及物体频繁进入和离开摄像头视野而极具挑战性……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] Solaris: 在 Minecraft 中构建多人视频世界模型

现有的 action‑conditioned video generation models（video world models）局限于单代理视角，未能捕捉多代理交互……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 现成的 Image-to-Image 模型是击败图像保护方案的全部所需

生成式人工智能（GenAI）的进步促使开发出多种保护策略，以防止图像的未经授权使用。这些方法依赖于...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 混合放大倍率聚合用于计算病理学的可推广区域级表征

近年来，出现了一种标准的计算病理工作流程，将 whole slide images 裁剪成 tiles，这些 tiles 使用一个 foun...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] NoLan：通过动态抑制语言先验缓解大型视觉语言模型中的对象幻觉

对象幻觉是大型视觉语言模型（LVLMs）的一个关键问题，模型的输出可能包含输入图像中不存在的对象。一个自然…

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai · - · -

[Paper] MedTri：用于结构化医学报告标准化以提升视觉-语言预训练的平台

医学视觉语言预训练越来越依赖医学报告作为大规模监督信号；然而，原始报告往往表现出显著的 st...

#research #paper #ai #computer-vision

Newer posts

Older posts