computer vision — Page 11

排序:

2个月前 · ai · - · -

[Paper] 鲁棒性是函数，而非数值：对视觉驱动中 OOD 鲁棒性的因式化综合研究

在自动驾驶中，分布外（OOD）鲁棒性常常被简化为一个单一数字，掩盖了导致策略失效的因素。我们沿着五…

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] Raster2Seq: 用于平面图重建的多边形序列生成

从栅格化的平面图像中重建结构化的矢量图形表示通常是计算任务的一个重要前提条件，涉及……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] WorldArena：一个统一的基准，用于评估具身世界模型的感知与功能效用

虽然世界模型已经成为具身智能的基石，通过使代理能够基于动作条件的预测来推理环境动力学……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

Apple 支持的全新 AI 模型可从无声视频中生成声音和语音

markdown !VSSFlow 演示图片 https://9to5mac.com/wp-content/uploads/sites/6/2026/02/vssflow-fi.jpg?quality=82&strip=all&w=1600 VSSFlow – 一个统一的音频生成…

#Apple #VSSFlow #video-to-sound #speech synthesis #multimodal AI #generative audio #computer vision
2个月前 · ai · - · -

[Paper] SPD-Faith Bench: 诊断并提升多模态大语言模型的 Chain-of-Thought 忠实性

Chain-of-Thought 推理被广泛用于提升多模态大语言模型 (MLLMs) 的可解释性，然而生成的推理的忠实性……

#research #paper #ai #machine-learning #nlp #computer-vision
2个月前 · software · - · -

使用 copilot cli 在 30 分钟内完成 Flappy Hand

概述 FlappyHand 是一款免手操作的互动游戏，灵感来源于经典的 Flappy Bird。角色通过手势控制，手势由您的 webcam 捕捉……

#GitHub Copilot CLI #Next.js #React #MediaPipe #computer vision #hand tracking #web app #flappy hand game
2个月前 · ai · - · -

[Paper] MedMO：用于医学影像的多模态大型语言模型的定位与理解

多模态大型语言模型（MLLMs）已经快速发展，但它们在医学中的应用仍受限于领域覆盖、模态对齐等方面的差距，...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 可靠的误标检测用于视频胶囊内镜数据

深度神经网络的分类性能在很大程度上依赖于获取大规模、准确标注的数据集。然而，在医学影像领域，获取……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 超越冗余的视角：任务复杂性在 VLLMs 中 Vision Token 专化中的作用

视觉大语言模型（VLLMs）的视觉能力一直落后于其语言能力。尤其是，许多基准测试…

#research #paper #ai #computer-vision
2个月前 · ai · - · -

【论文】PANC：先验感知 Normalized Cut 用于目标分割

完全无监督的 segmentation pipelines 天真地寻找最显著的对象（如果存在的话）。因此，文献中报告的大多数方法……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[论文] Prompt Reinjection：缓解多模态 Diffusion Transformers 中的 Prompt Forgetting

用于文本到图像生成的多模态扩散变换器（MMDiTs）保持独立的文本和图像分支，并在它们之间实现双向信息流……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] Vision Transformer 微调受益于非平滑组件

Transformer 架构的平滑性已在泛化、训练稳定性和对抗鲁棒性方面得到广泛研究。Ho...

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] NanoFLUX：蒸馏驱动的压缩大型文本到图像生成模型用于移动设备

虽然 large-scale text-to-image diffusion models 在 visual quality 上持续提升，但它们日益增长的规模扩大了 state-of-the-art 模式之间的差距。

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] RFDM：残差流扩散模型用于高效因果视频编辑

教学视频编辑仅使用文本提示对输入视频进行编辑，实现直观的自然语言控制。尽管进展迅速，大多数 m...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中，我们提出了一种对 PInv 的自然推广……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

高效且持续地将 large pretrained models 适配到新任务对于 real‑world deployment 至关重要，但由于 catastrophic forgetting 等挑战仍然困难。

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 从透视描述预测相机姿态用于空间推理

多图像空间推理仍然是当前多模态大语言模型（MLLMs）的挑战。虽然单视角感知本质上是二维的，推理……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] SwimBird: 在混合自回归 MLLMs 中引发可切换的推理模式

多模态大型语言模型（MLLMs）通过连接视觉和语言，在多模态感知和推理方面取得了显著进展。然而，大多数现有...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同

为了完成人类以 natural language 提供的任务，机器人必须解释指令，生成并回答与 scene understanding 相关的问题，……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 用几何思考：Active Geometry Integration 用于空间推理

近期在空间推理方面的进展，使用多模态大语言模型（MLLMs）越来越多地利用来自3D编码器的几何先验。然而，大多数现存……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] InterPrior：用于基于物理的人体-物体交互的可扩展生成控制

人类很少在显式的全身动作层面上规划与物体的全身交互。高级意图，例如 affordance，定义了目标……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] V-Retrver: 基于证据驱动的主体推理用于通用多模态检索

多模态大语言模型（MLLMs）最近被用于通用多模态检索，其中链式思考（CoT）推理能够提升候选项的质量。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[论文] Splat and Distill：通过前馈 3D 重建增强教师，实现 3D 感知蒸馏

Vision Foundation Models (VFMs) 在应用于各种下游 2D 任务时取得了显著成功。尽管它们效果显著，但它们常常表现出……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 上下文强制：具有长上下文的一致自回归视频生成

近期针对实时长视频生成的研究通常采用 streaming tuning 策略，尝试使用 short‑cont（短上下文）来训练 long‑context student。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] GenArena：我们如何实现对视觉生成任务的人类对齐评估？

视觉生成模型的快速发展已经超出了传统评估方法的步伐，迫切需要采用 Vision-Language Models 作为替代……

#research #paper #ai #machine-learning #computer-vision
2个月前 · software · - · -

停止从图像复制粘贴：使用 Python 构建通用屏幕翻译器

Lingo‑Live 的起点源于我们许多人都曾感受过的挫败感：尝试从 YouTube 视频或任何屏幕内容中复制文字几乎不可能。大多数人最终会…

#python #screen-translator #ocr #computer-vision #desktop-app #hotkey #ui-design #translation-api
2个月前 · ai · - · -

[Paper] 神经启发的视觉模式识别通过生物 Reservoir Computing

在本文中，我们提出了一种受神经启发的 reservoir computing (RC) 方法，其中体外培养的皮层神经元网络作为物理……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 强化注意力学习

通过强化学习（RL）进行后训练已显著提升了大语言模型（LLMs）的推理能力，尤其是在测试时的规模扩展方面。然而，扩展…

#research #paper #ai #machine-learning #nlp #computer-vision
2个月前 · ai · - · -

[Paper] CoWTracker: 通过变形而非相关进行跟踪

Dense point tracking 是计算机视觉中的一个基础问题，应用范围从视频分析到机器人操作。最先进的跟踪器…

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] PerpetualWonder：长时程动作条件的4D场景生成

我们介绍 PerpetualWonder，这是一种混合生成模拟器，能够从单张图像实现长期、动作条件化的 4D 场景生成。当前的工作……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 层叠表示自编码器用于高效扩散

最近的工作表明，扩散模型可以通过直接在 SSL 补丁特征上操作，而不是在像素空间潜在变量上，生成高质量的图像。然而...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 当 LLaVA 遇到对象时：Token 组合用于视觉语言模型

当前的自回归 Vision Language Models（VLM）通常依赖大量视觉 tokens 来表示图像，导致需要更多的计算 …

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] PDF-HR：姿态距离场用于类人机器人

Pose 和 motion priors 在 humanoid robotics 中发挥关键作用。虽然这些先验已在 human motion recovery (HMR) 领域得到广泛研究，范围……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] LitS：一种用于点云的新颖邻域描述子

随着3D扫描技术的进步，点云已成为表示3D空间数据的基础，应用范围遍及各种……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 这不是彩票，而是赛跑：理解梯度下降如何将网络容量适配到任务

我们对神经网络的理论理解落后于其经验成功。一个重要的未解释现象是，为什么以及如何，在…

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[论文] 面向可靠且可解释的指甲疾病分类：利用对抗训练和 Grad-CAM 可视化

人类指甲疾病在所有年龄段逐渐被观察到，尤其是在老年人中，常常被忽视，直到病情严重。早期检测……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] XtraLight-MedMamba用于新生性管状腺瘤的分类

在常规结肠镜筛查中，对癌前息肉进行准确的风险分层对于降低结直肠癌（CR...）的发生风险至关重要。

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] EventNeuS: 单目事件相机的 3D 网格重建

事件相机在许多场景中提供了对RGB相机的显著替代方案。虽然最近已有关于基于事件的 novel-view synthesis 的研究，但 dense 3D mesh …

#research #paper #ai #computer-vision
2个月前 · ai · - · -

【论文】PrevizWhiz：结合粗糙的3D场景和2D视频来指导生成式视频预可视化

在 pre-production 阶段，电影制片人和 3D animation 专家必须快速 prototype 想法，以在 fullscale production 之前探索影片的可能性，然而传统……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] AutoFigure：生成与完善出版就绪的科学插图

高质量的科学插图对于有效传达复杂的科学和技术概念至关重要，然而它们的手工创建仍然是一个…

#research #paper #ai #machine-learning #nlp #computer-vision
2个月前 · ai · - · -

通过自适应源引导实现编辑模型的连续控制

Diffusion-based editing models 已成为语义图像和视频操作的强大工具。然而，现有模型缺乏平滑……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 基于深度学习的全表型组数据揭示了鸟类视觉差异的爆炸式进化

生物形态学的演化对于理解自然界的多样性至关重要，然而传统分析往往涉及主观偏差……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 快慢高效训练：通过视觉Token剪枝实现多模态大语言模型

多模态大语言模型（MLLMs）面临严重的训练效率低下问题，这与它们庞大的模型规模和视觉 token 数量有关……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 渐进式棋盘用于自回归多尺度图像生成

在自回归图像生成中，一个关键挑战是如何在并行地高效采样独立位置的同时，仍然对相互依赖进行建模。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] FullStack-Agent：通过面向开发的测试和仓库反向翻译提升代理式全栈网页编码

帮助非专业用户开发复杂的交互式网站已成为 LLM-powered code agents 的热门任务。然而，现有的代码代理往往 …

#research #paper #ai #nlp #computer-vision
2个月前 · ai · - · -

[Paper] FOVI：一种受生物启发的 foveated 接口，用于深度视觉模型

人类视觉是 foveated 的，具有可变的分辨率，在大视野的中心达到最高；这反映了主动感知的高效权衡，allo...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

MATLAB 与 Python 中的立体匹配算法

立体匹配是计算机视觉的核心问题，性能至关重要，尤其是在处理大图像或实时系统时。本文分享……

#stereo matching #computer vision #MATLAB #Python #block matching #semi-global matching #belief propagation #algorithm implementation
2个月前 · ai · - · -

[论文] PixelGen：Pixel Diffusion 击败 Latent Diffusion，使用感知损失

Pixel diffusion 直接在像素空间中端到端生成图像，避免了在两阶段潜在空间中由 VAE 引入的伪影和瓶颈……

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts