computer-vision — Page 2

排序:

1周前 · ai · - · -

[Paper] TokenLight：使用属性令牌的精确图像光照控制

本文提出了一种图像重新照明的方法，能够在照片中对多个光照属性进行精确且连续的控制。我们……

#research #paper #ai #computer-vision
1周前 · ai · - · -

[论文] MM-WebAgent：一种用于网页生成的层次化多模态网页代理

人工智能生成内容（AIGC）工具的快速进展，使得可以按需为网页设计创建图像、视频和可视化内容。

#research #paper #ai #machine-learning #nlp #computer-vision
1周前 · ai · - · -

[Paper] RAD-2：在生成-判别框架中扩展强化学习

高级自动驾驶需要能够对多模态未来不确定性进行建模且在闭环交互中保持鲁棒性的运动规划器。A...

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] 在潜在思维中思考：无Gloss手语翻译的新范式

许多 SLT 系统悄然假设，简短的手语片段可以直接映射到口语单词。这个假设会失效，因为手语者常常创造 mea...

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] AnimationBench：视频模型在以角色为中心的动画方面表现如何？

视频生成已经快速发展，最近的方法能够产生越来越逼真的动画效果。然而，现有的基准——主要为……

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] GlobalSplat：通过全局场景令牌实现高效前馈式3D高斯点绘

高效的原语空间分配是3D Gaussian Splatting的基础，因为它直接决定了表示之间的协同作用……

#research #paper #ai #computer-vision
1周前 · ai · - · -

[论文] R3D：重新审视 3D 策略学习

3D policy learning 预计能够实现更优的泛化和跨形体转移，但进展受到训练不稳定和严重过拟合的阻碍。

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] 为什么视觉语言模型在识别人类情感方面表现困难？

理解情感是智能系统能够与人类互动的基本能力。视觉语言模型（VLM）已经取得了巨大的 p...

#research #paper #ai #machine-learning #computer-vision
1周前 · ai · - · -

[Paper] SegWithU：不确定性作为扰动能量用于单次前向传播风险感知医学图像分割

可靠的不确定性估计对医学图像分割至关重要，因为自动轮廓会用于下游量化和临床决策支持。

#research #paper #ai #machine-learning #computer-vision
1周前 · ai · - · -

【论文】每个高度选择性帧一个 Token：迈向长视频理解的极端压缩

长视频理解对视觉语言模型（VLM）而言本质上具有挑战性，因为帧数庞大。每个视频帧通常……

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] Seedance 2.0：推进视频生成以应对世界复杂性

Seedance 2.0 是一种全新的原生多模态音视频生成模型，于2026年2月初在中国正式发布。与其前代相比，Seed…

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] ROSE: 检索导向分割增强

基于多模态大型语言模型（MLLM）的现有分割模型，例如 LISA，常常因其无法处理新出现或新兴实体而面临困难。

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] SpatialEvo：通过确定性几何环境实现自进化空间智能

对三维场景的空间推理是具身智能的核心能力，但持续的模型改进仍受到成本的瓶颈限制。

#research #paper #ai #nlp #computer-vision
1周前 · ai · - · -

几何上下文 Transformer 用于流式 3D 重建

流式 3D 重建旨在从视频流中恢复 3D 信息，如相机位姿和点云，这需要几何精度，t...

#research #paper #ai #computer-vision
1周前 · ai · - · -

[论文] 不要让视频说话：Audio-Contrastive Preference Optimization for Audio-Visual Language Models

虽然音视频语言模型（AVLMs）在最近几年取得了显著进展，但它们的可靠性受到跨模态幻觉的瓶颈限制。

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] HiVLA：一种视觉驱动中心的层次化具身操作系统

虽然端到端的 Vision-Language-Action（VLA）模型为机器人操作提供了一个有前景的范式，但在狭窄的控制数据上对其进行微调往往会导致性能妥协……

#research #paper #ai #machine-learning #computer-vision
1周前 · ai · - · -

[Paper] UI-Zoomer：基于不确定性的自适应放大用于 GUI Grounding

GUI grounding，指在给定自然语言查询的情况下，从截图中定位界面元素，对于小图标和密集布局仍然具有挑战性。Test-t...

#research #paper #ai #machine-learning #nlp #computer-vision
1周前 · ai · - · -

[Paper] 免训练语义多目标跟踪与视觉-语言模型

语义多目标跟踪（SMOT）将多目标跟踪扩展为具有语义输出，例如视频摘要、实例级别的字幕和交互标签……

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] 迈向无约束的人-对象交互

Human-Object Interaction (HOI) 检测是一个长期存在的计算机视觉问题，旨在预测人类与物体之间的交互。当前…

#research #paper #ai #computer-vision
1周前 · ai · - · -

【论文】Lyra 2.0：可探索的生成式3D世界

最近在视频生成方面的进展使得3D场景创建出现了新范式：生成受摄像机控制的视频，以模拟场景漫游，然后提升……

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] SceneCritic：用于 3D 室内场景合成的符号评估器

大型语言模型（LLMs）和视觉语言模型（VLMs）越来越多地通过布局和场景图等中间结构生成室内场景。

#research #paper #ai #nlp #computer-vision
1周前 · ai · - · -

[Paper] 生成式细化网络用于视觉合成

虽然扩散模型在视觉生成领域占据主导地位，但它们在计算上效率低下，对所有扩散过程都采用统一的计算努力。

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] 视觉偏好优化与评分奖励

Direct Preference Optimization（DPO）的有效性取决于能够反映多模态任务中关键质量差异的偏好数据。存在……

#research #paper #ai #machine-learning #computer-vision
1周前 · ai · - · -

[Paper] 融合逆向建模生成多样且诱导温度变化的城市植被模式

城市地区因快速城市化和气候变化而日益容易受到热极端的影响。传统上，热极端的监测……

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] 表示几何形状决定视觉-语言建模在CT肠道造影中的任务性能

Computed tomography (CT) enterography 是评估炎症性肠病 (IBD) 的主要成像方式，但最佳的表征选择仍有待确定。

#research #paper #ai #machine-learning #computer-vision
1周前 · ai · - · -

[Paper] 看、指、细化：基于视觉反馈的 GUI 定位多轮方法

计算机使用代理（Computer Use Agents，CUAs）根本上依赖图形用户界面（graphical user interface，GUI）基础，将语言指令转换为可执行的屏幕操作，但……

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] GlotOCR Bench：OCR 模型仍在少数 Unicode 脚本之外挣扎

光学字符识别（OCR）随着视觉语言模型的兴起而迅速发展，但评估仍然集中在少数几个……

#research #paper #ai #nlp #computer-vision
1周前 · ai · - · -

[论文] 概率特征插补与不确定性感知多模态联邦聚合

多模态联邦学习实现了在医疗机构之间进行隐私保护的协作模型训练。然而，一个根本性的挑战出现了……

#research #paper #ai #computer-vision
1周前 · ai · - · -

优化方法的演进：算法、场景与评估

在 deep learning 优化中，平衡收敛速度、泛化能力和计算效率仍然是一个核心挑战。First-order gradient…

#research #paper #ai #machine-learning #computer-vision
1周前 · ai · - · -

[Paper] Socrates Loss: 通过利用未知统一置信度校准与分类

深度神经网络尽管具有很高的准确率，但往往表现出置信度校准不足，限制了它们在高风险应用中的可靠性。当前的…

#research #paper #ai #machine-learning #computer-vision
1周前 · ai · - · -

[Paper] 谁处理方向？特征匹配中的不变性研究

在3D计算机视觉中，寻找图像之间的匹配关键点是一个核心问题。然而，现代匹配器在处理大幅平面旋转时表现不佳。A straightfo...

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] OmniShow：统一多模态条件以实现人-物体交互视频生成

在本工作中，我们研究了人-物交互视频生成（Human-Object Interaction Video Generation，HOIVG），其目标是基于 t 合成高质量的人-物交互视频。

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] SyncFix：通过多视图同步修复 3D 重建

我们提出了 SyncFix，一个在基于扩散的重建场景细化过程中强制跨视图一致性的框架。SyncFix 将细化……

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] HDR 视频生成通过潜在对齐与对数编码

High dynamic range (HDR) 图像提供了对场景辐射的丰富且忠实的表示，但由于其不匹配……，对 generative models 仍然具有挑战性。

#research #paper #ai #computer-vision
1周前 · ai · - · -

[Paper] LMMs 与对象中心视觉的结合：理解、分割、编辑与生成

大型多模态模型（LMMs）在通用视觉-语言理解方面取得了显著进展，然而，它们在需要 p... 的任务上仍然受限。

#research #paper #ai #computer-vision
1周前 · ai · - · -

精准定价：AI 如何自动化您的handyman报价

厌倦了花费数小时手动测量照片、查找材料价格并计算报价吗？对于handyman业务来说，这类后台工作是一个主要的痛点……

#AI automation #price quoting #handyman services #computer vision #business logic #cost estimation #machine learning
1周前 · ai · - · -

图像分类详解——为什么 k-NN 会失效以及线性分类器的重要性

图像分类听起来很容易，直到你记得计算机从不直接看到“对象”。它只看到像素数组。本文解释了这为何使得 k‑NN 成为一种…

#image classification #k-NN #linear classifiers #computer vision #machine learning #deep learning
1周前 · ai · - · -

[Paper] 眼见为实：在标签噪声下的鲁棒视觉引导跨模态提示学习

Prompt learning 是一种参数高效的视觉语言模型方法，但其在标签噪声下的鲁棒性研究较少。视觉内容包含……

#research #paper #ai #machine-learning #computer-vision
1周前 · ai · - · -

[Paper] VisionFoundry：使用合成图像教授 VLMs 视觉感知

视觉语言模型（VLMs）仍然在视觉感知任务（如空间理解和视点识别）上表现困难。一个可能的促成因素是...

#research #paper #ai #machine-learning #nlp #computer-vision
1周前 · ai · - · -

[Paper] VL-Calibration：大型视觉‑语言模型推理的解耦置信度校准

大型视觉语言模型（LVLMs）在多模态推理方面表现出色，但常常出现幻觉并以高度确定性给出错误答案，……

#research #paper #ai #machine-learning #nlp #computer-vision
2周前 · ai · - · -

[论文] ETCH‑X：通过可组合数据集提升对穿衣人体的 Expressive Body Fitting 的鲁棒性

人体拟合，将诸如 SMPL 等参数化人体模型与穿衣人类的原始 3D 点云对齐，是下游任务的关键第一步。

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] GaussiAnimate：重建并绑定可动画类别的动态层级

自由形态骨骼紧贴表面，能够有效捕捉非刚性变形，但缺乏直观控制所需的运动学结构。

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] 明智行动：在代理式多模态模型中培养元认知工具使用

代理式多模态模型的出现使系统能够主动与外部环境交互。然而，当前的代理在…

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] 当数字发声：对齐文本数字和视觉实例在 Text-to-Video Diffusion Models 中

Text-to-video diffusion models 已经实现了开放式视频合成，但在生成提示中指定的正确对象数量时常常遇到困难。

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] E-3DPSM：用于基于事件的自我视角3D人体姿态估计的状态机

事件相机在头戴式设备的单目自我视角3D人体姿态估计中提供了多种优势，例如毫秒级时间分辨率，hig...

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] SIM1：Physics-Aligned Simulator 作为可变形世界中的 Zero-Shot 数据缩放器

机器人操作可变形物体代表了具身学习中数据密集的范式，其中形状、接触和拓扑以相互共演的方式……

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] Scal3R：可扩展的测试时训练用于大规模3D重建

本文针对从长视频序列进行大规模3D场景重建的任务。近期的前馈重建模型已经展示出有希望的 r...

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] 眼见却不思考：多模态 Mixture-of-Experts 中的路由干扰

多模态混合专家（MoE）模型在视觉语言任务上取得了显著的性能。然而，我们发现了一种令人困惑的现象，称为 Seei…

#research #paper #ai #machine-learning #nlp #computer-vision

Newer posts

Older posts