computer-vision — Page 3

排序:

2周前 · ai · - · -

[Paper] AVGen-Bench：面向任务的多粒度文本到音频视频生成评估基准

Text-to-Audio-Video (T2AV) 生成正迅速成为媒体创作的核心接口，但其评估仍然碎片化。现有基准在很大程度上…

#research #paper #ai #machine-learning #nlp #computer-vision
2周前 · ai · - · -

[Paper] OpenVLThinkerV2：用于多领域视觉任务的通用多模态推理模型

Group Relative Policy Optimization (GRPO) 已成为推动最近在多模态大型语言模型领域进展的事实上的强化学习 (RL) 目标。

#research #paper #ai #machine-learning #nlp #computer-vision
2周前 · ai · - · -

[Paper] RewardFlow：通过优化奖励生成图像

我们引入 RewardFlow，这是一种无反演框架，在推理时通过多奖励 Langevin 动力学引导预训练的 diffusion 和 flow‑matching 模型。

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[论文] Kuramoto振荡相位编码：受神经启发的同步以提升学习效率

Spatiotemporal neural dynamics 和 oscillatory synchronization 被广泛认为在 biological information processing 中起重要作用，并被假设支持……

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] 快速空间记忆与弹性测试时训练

Large Chunk Test-Time Training (LaCT) 已在长上下文 3D 重建中展示了强大的性能，但其完全可塑的推理时更新仍然脆弱……

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[论文] MoRight：运动控制做对了

生成动作控制视频——在用户指定的动作驱动下，实现自由选择视点的物理上合理的场景动态——需要两种能力……

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] TC-AE：解锁 Token 容量以用于深度压缩自编码器

我们提出 TC‑AE，一种基于 ViT 的深度压缩 autoencoders 架构。现有方法通常通过增加 latent representations 的通道数来……

#research #paper #ai #computer-vision
2周前 · ai · - · -

[论文] 从 Blobs 到 Spokes：通过定向高斯实现高保真表面重建

3D Gaussian Splatting（3DGS）已经彻底改变了快速新视角合成，但其基于不透明度的公式使得表面提取在根本上变得困难。U...

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] RoSHI：一种用于野外人类数据的多功能机器人导向套装

扩大机器人学习的规模可能需要包含丰富且长期交互的人类数据，且这些数据来源于真实环境。现有的收集此类数据的方法……

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] 区域图最优传输路由用于混合专家全切片图像分类

多实例学习（MIL）是计算病理学中用于千兆像素全切片图像（WSI）分类的主导框架。然而，当前的MIL……

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] HaloProbe：贝叶斯检测与缓解视觉语言模型中的对象幻觉

大型视觉语言模型可能在图像描述中产生对象幻觉，这凸显了有效检测和缓解策略的需求。P...

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] Character Error Vector：可分解错误用于页面级 OCR 评估

字符错误率（CER）是评估光学字符识别（OCR）质量的关键指标。然而，该指标假设文本已经…

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] MMEmb‑R1: 推理增强的多模态嵌入与配对感知选择及自适应控制

MLLMs 已成功应用于多模态嵌入任务，但它们的生成推理能力仍未得到充分利用。直接将 cha...

#research #paper #ai #machine-learning #nlp #computer-vision
2周前 · ai · - · -

[Paper] PoM：一种线性时间的 Attention 替代方案，使用 Polynomial Mixer

本文介绍了多项式混合器（Polynomial Mixer，PoM），这是一种具有线性复杂度的新型 token mixing 机制，可直接替代 self-attention....

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] 轻量化多模态适配视觉语言模型用于无人机热成像中的物种识别与栖息地上下文解释

本研究提出了一种轻量级多模态适配框架，以弥合 RGB 预训练 VLMs 与热红外影像之间的表征差距，并……

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] SEM-ROVER：用于大规模驾驶场景生成的语义体素引导扩散

可扩展的户外驾驶场景生成需要在多个视角下保持一致并能够扩展到大范围的 3D 表示。现有的 s...

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] 基于双自一致强化学习的科学图形程序合成

Graphics Program Synthesis 对于解释和编辑视觉数据至关重要，有效促进了将静态视觉内容逆向工程为可编辑的形式……

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] 神经网络剪枝通过 QUBO 优化

Neural network pruning 可以被表述为一个 combinatorial optimization 问题，但大多数现有方法依赖于忽视复杂 int... 的 greedy heuristics。

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] Vanast: 虚拟试衣与人体图像动画通过合成三元组监督

我们提出了 Vanast，一个统一的框架，能够直接从单张人物图像、服装图像和 pose 生成 garment‑transferred 人体动画视频。

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] PointTPA：动态网络参数适配用于3D场景理解

场景级点云理解仍然具有挑战性，因为几何形状多样，类别分布不平衡，空间布局高度多变。Exist...

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] LoMa：局部特征匹配再探讨

局部特征匹配长期以来一直是 3D 视觉系统（如 Structure-from-Motion (SfM)）的基础组成部分，然而其进展相较于快速 …

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] 重新思考模型效率：大模型下的多智能体推理

大多数视觉语言模型（VLM）使用大型语言模型（LLM）作为解码器，其中响应标记通过自回归（autoregressive）方式顺序生成。

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] 你的预训练扩散模型暗中了解修复

预训练的扩散模型推动了全能修复（All-in-One Restoration，AiOR）的显著进展，提供了更好的感知质量和泛化能力。Ho...

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] TriAttention：高效长推理与三角 KV 压缩

在大型语言模型（LLMs）中进行扩展推理会导致严重的 KV 缓存内存瓶颈。领先的 KV 缓存压缩方法使用…来估计 KV 重要性。

#research #paper #ai #nlp #computer-vision
2周前 · ai · - · -

[Paper] Vero：通用视觉推理的开放RL配方

要构建一个能够跨图表、科学、空间理解和开放式任务的 visual reasoner，需要什么条件？最强大的 vision-language model……

#research #paper #ai #machine-learning #nlp #computer-vision
2周前 · ai · - · -

[Paper] SpatialEdit: 基准测试细粒度图像空间编辑

图像空间编辑执行几何驱动的变换，允许对对象布局和相机视角进行精确控制。当前模型不足……

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] LP-GEMM：将布局传播集成到 GEMM 操作中

在科学计算和现代机器学习（ML）工作负载中，依赖的通用矩阵乘法（GEMM）序列通常占据执行时间的主要部分……

#research #paper #ai #machine-learning #computer-vision
2周前 · software · - · -

实体介质上的彩色 QR 码——它真的能读取！

请提供需要翻译的文本内容。

#color QR code #printing #CMYK #RGB #spectral response normalization #image processing #computer vision
2周前 · ai · - · -

[Paper] L-SPINE：低精度 SIMD 脉冲神经计算引擎用于资源高效的边缘推理

Spiking Neural Networks (SNNs) 为实现能效高的边缘智能提供了有前景的解决方案；然而，它们的硬件部署受到内存开销的限制。

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] CoME-VL：规模化互补多编码器视觉语言学习

近期的视觉语言模型（VLMs）通常依赖于使用对比图像‑文本目标进行训练的单一视觉编码器，例如 CLIP‑style 预训练。W...

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] VOSR：一种仅视觉生成模型用于图像超分辨率

大多数近期的生成式图像超分辨率（SR）方法依赖于对在网络规模文本‑图像数据上预训练的大型文本到图像（T2I）扩散模型进行适配……

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] HyperCT：低秩 Hypernet 用于统一胸部 CT 分析

非增强胸部CT为常规肺部筛查和机会性肺外筛查提供了丰富的机会。虽然 Multi-Task Learning (MTL) 可以……

#research #paper #ai #computer-vision
2周前 · ai · - · -

[论文] ProtoFlow：通过低曲率原型流缓解类增量遥感分割中的遗忘

遥感分割在实际部署中本质上是持续的：新的语义类别不断出现，获取条件随季节、城市等而变化……

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] PR3DICTR：模块化 AI 框架用于医学 3D 图像检测与结果预测

三维医学影像数据和计算机辅助决策，特别是使用 deep learning，正变得在医学领域日益重要。

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] 第十一届 NTIRE 2026 高效超分辨率挑战赛报告

本文回顾了 NTIRE 2026 年关于高效单图像超分辨率的挑战，重点关注所提出的解决方案和结果。该挑战的目标是……

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] 压缩差距：为何离散标记化限制Vision-Language-Action模型的规模化

通过升级视觉编码器来扩展视觉‑语言‑动作（VLA）模型，预计能够提升下游操作性能——正如它在视觉‑语言模型中所表现的那样……

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[Paper] 多视角视频扩散策略：一种 3D 时空感知视频动作模型

机器人操作需要理解环境的3D空间结构及其时间演化，但大多数现有策略忽视了其中之一……

#research #paper #ai #computer-vision
2周前 · ai · - · -

[Paper] 理解 Hallucination 在 Reinforcement Post-Training 中对多模态推理模型的作用

近期强化学习（RL）在大型推理模型中的成功，激发了人们对在后训练的多模态大型语言模型中采用 RL 的日益增长的兴趣。

#research #paper #ai #machine-learning #computer-vision
2周前 · ai · - · -

[论文] SFFNet：协同特征融合网络与双域边缘增强用于无人机图像目标检测

在无人机（UAV）图像中的目标检测仍然是一项极具挑战性的任务，主要是由于背景噪声的复杂性和不平衡……

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 波长复用的大规模并行衍射光学信息存储与图像投影

我们引入了一种 wavelength-multiplexed、massively parallel 的 diffractive information storage 平台，由结构优化的 dielectric surfaces 组成……

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] EventHub：用于无主动传感器的可推广事件驱动立体网络的数据工厂

我们提出 EventHub，一个用于训练深度事件立体网络的创新框架，无需来自昂贵主动传感器的真实标注，而是依赖于 s...

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 生成式世界渲染器

将 generative inverse 和 forward rendering 扩展到真实世界场景时，受限于现有 synthetic data 的逼真度和 temporal coherence 的不足，成为瓶颈。

#research #paper #ai #computer-vision
3周前 · ai · - · -

[论文] Modulate-and-Map：跨模态特征映射与跨视图调制用于3D异常检测

我们提出了 ModMap，这是一种原生多视角和多模态的 3D 异常检测与分割框架。不同于现有的将视角独立处理的方法……

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 可操控视觉表征

预训练的视觉Transformer（ViTs），例如 DINOv2 和 MAE，提供通用的图像特征，可用于各种下游任务，例如检索…

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] 大规模 Codec Avatars：大规模 Avatar 预训练的非凡有效性

高质量的3D avatar modeling 面临着 fidelity 与 generalization 之间的关键权衡。一方面，multi-view studio data 能够实现 high-fidelity …

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 停止漂移：通过元认知推理实现高效 Vision-Language Navigation

无需训练的 Vision-Language Navigation (VLN) 代理由 foundation models 驱动，能够遵循指令并探索 3D 环境。然而，现有的 approa...

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 流媒体视频理解的简易基线

近期的流媒体视频理解方法日益依赖复杂的记忆机制来处理长视频流。我们用一种简单的…来挑战这一趋势。

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] VOID：视频对象与交互删除

现有的视频对象移除方法在对对象后面的内容进行inpainting以及纠正外观层面的伪影（如阴影和反射）方面表现出色。

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts