computer-vision — Page 18

排序:

4个月前 · ai · - · -

[Paper] RadarGen：从摄像头生成汽车雷达点云

我们提出了 RadarGen，这是一种扩散模型，用于从多视角相机图像合成逼真的汽车雷达点云。RadarGen 采用 efficient image-

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 关键点计数分类器：将 Vision Transformers 转换为无需训练的自解释模型

当前用于设计自解释模型（SEMs）的方法需要复杂的训练过程和特定的架构，这使得它们不切实际……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 视觉提示基准出乎意料地脆弱

在评估 VLMs 时，一个关键挑战是测试模型在不依赖文本先验的情况下分析视觉内容的能力。最近的基准测试如 BLINK……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] InSPECT: 扩散模型的不可变光谱特征保持

现代扩散模型（DMs）已经实现了最先进的图像生成。然而，将数据完全扩散至白噪声的根本设计选择……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 可解释的植物叶片病害检测使用 Attention-Enhanced CNN

植物疾病对全球粮食安全构成重大威胁，需要准确且可解释的疾病检测方法。本研究介绍了一种 i...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] InfSplign：推理时空间对齐的文本到图像扩散模型

文本到图像（Text-to-image，T2I）扩散模型能够生成高质量的图像，但往往未能捕捉文本提示中指定的空间关系。这一限制可以……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] PathBench-MIL：用于组织病理学中多实例学习的综合 AutoML 与基准评估框架

我们推出 PathBench-MIL，一个用于组织病理学中多实例学习（MIL）的开源 AutoML 与基准测试框架。该系统实现了端到端的自动化。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 生成式重新聚焦：灵活的散焦控制来自单张图像

Depth-of-field 控制在摄影中至关重要，但要获得完美的焦点往往需要多次尝试或特殊设备。Single-image refocusing 仍然是……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 世界是你的画布：使用参考图像、轨迹和文本绘制可提示事件

我们提出 WorldCanvas，一个用于可提示世界事件的框架，通过结合文本、轨迹和参考图像，实现丰富的、用户导向的模拟。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Next-Embedding 预测使视觉学习者更强

受生成式预训练在自然语言领域成功的启发，我们探讨相同的原理是否能产生强大的自监督视觉学习者。Inst...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 关键差异：审计模型用于能力差距的发现与纠正

传统的多模态大语言模型（MLLM）评估方法缺乏可解释性，且往往不足以充分揭示跨…的显著能力差距。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] DVGT: 驱动视觉几何Transformer

从视觉输入感知和重建 3D 场景几何对于自动驾驶至关重要。然而，目前仍缺乏针对驾驶任务的稠密几何。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] EasyV2V：高质量基于指令的视频编辑框架

虽然 image editing 发展迅速，但 video editing 仍然较少被探索，面临 consistency、control 和 generalization 的挑战。我们研究了设计...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] AdaTooler-V：自适应工具使用用于图像和视频

最近的研究表明，多模态大型语言模型（MLLMs）受益于与视觉工具交互的多模态交叉链式思考（CoT）。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] StereoPilot：通过生成先验学习统一且高效的立体转换

立体显示技术的快速增长，包括 VR 头盔和 3D 影院，导致对高质量立体视频内容的需求不断增加。然而，pr...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Depth Any Panoramas: 全景深度估计的基础模型

在本工作中，我们提出了一种全景度量深度基础模型，能够在不同场景距离上实现泛化。我们探索了一种 data‑in‑the‑loop 范式……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] SFTok：弥合离散分词器的性能差距

近期在多模态模型方面的进展凸显了图像标记化在高分辨率图像生成中的关键作用。通过将图像压缩成紧凑的...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 从推理到运动的流动：从第一人称人类交互视频中学习3D手部轨迹预测

先前关于3D 手部轨迹预测的工作受到数据集的限制，这些数据集将运动与语义监督解耦，并且模型在推理方面的关联较弱。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Multimodal RewardBench 2：评估用于交错文本和图像的 Omni Reward Models

奖励模型（RMs）对于训练大型语言模型（LLMs）至关重要，但在处理交错图像和文本序列的 omni models 方面仍未得到充分研究。

#research #paper #ai #nlp #computer-vision
4个月前 · ai · - · -

[Paper] LinkedOut：从 Video LLM 中链接世界知识表示以实现下一代视频推荐

视频大型语言模型（VLLMs）通过在互联网规模的数据上进行预训练，解锁了具备世界知识感知的视频理解，并已显示出前景……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 共同训练，提升诊断：用于Collagen VI相关营养不良的联邦学习

将机器学习（Machine Learning, ML）应用于罕见疾病的诊断，如胶原VI相关营养不良（COL6‑RD），在根本上受到 s 的限制。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] Spatia：可更新空间记忆的视频生成

现有的视频生成模型由于视频信号的密集和高维特性，在保持长期的空间和时间一致性方面面临困难。为了……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 追求像素监督以进行视觉预训练

在最基本的层面上，像素是我们感知世界的视觉信息来源。像素在所有层面上都包含信息，范围……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] DiffusionVL：将任意 Autoregressive 模型翻译为 Diffusion Vision Language Models

在最近的多模态研究中，diffusion paradigm 已经崭露头角，成为 autoregressive paradigm (AR) 的一种有前景的替代方案，因为它独特的解码……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Gaussian Pixel Codec Avatars：一种用于高效渲染的混合表示

我们提出了 Gaussian Pixel Codec Avatars（GPiCA），一种可以从多视角图像生成并在移动设备上高效渲染的逼真头部化身。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 多视角 Foundation Models

Foundation模型是各种Computer Vision应用中的重要工具。它们以单张RGB图像为输入，输出一个深层特征表示，...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] GateFusion：层次门控跨模态融合用于主动说话人检测

Active Speaker Detection（ASD）旨在识别视频中每一帧当前正在说话的人。大多数最先进的方法依赖于late fusion来组合……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 通过自重采样实现自回归视频扩散的端到端训练

自回归视频扩散模型在世界模拟方面具有潜力，但容易受到由训练-测试不匹配导致的曝光偏差的影响。虽然最近的...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] VLIC：视觉语言模型作为感知评判者用于人类对齐的图像压缩

包含人类偏好的图像压缩性能评估普遍发现，诸如 MSE 之类的朴素失真函数不足以……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] Skyra：通过基于伪影的推理进行AI生成视频检测

AI驱动的视频生成技术的滥用已经引发了严重的社会担忧，凸显出对可靠的AI生成视频检测器的迫切需求……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[论文] mimic-video：Video-Action 模型用于超越 VLAs 的通用机器人控制

当前用于机器人操作的 Vision-Language-Action Models (VLAs) 基于在大规模但相互独立的视觉-语言骨干网络上进行预训练。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] 风格化合成增强进一步提升对腐蚀鲁棒性

本文提出了一种训练数据增强流水线，将合成图像数据与神经风格迁移相结合，以解决其脆弱性。

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] VTCBench：视觉语言模型能否通过视觉-文本压缩理解长上下文？

与扩展 LLMs 的 context window 相关的计算和内存开销严重限制了它们的可扩展性。一个值得注意的解决方案是 vision-te…

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] 类人工作记忆来自人工内在可塑性神经元

工作记忆使大脑能够整合瞬时信息，以实现快速决策。人工网络通常通过 recurrent 或 par...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

数据标注：驱动精准且可扩展的 AI 系统

引言数据标注是人工智能的基础过程，使机器能够从真实世界的数据中学习。它涉及添加意义……

#data annotation #machine learning #training data #labeling #computer vision #natural language processing #speech recognition #AI model accuracy
4个月前 · ai · - · -

AI 背景去除器：AI 如何检测对象并分离背景

AI 背景移除工具乍一看可能像魔法一样。你上传一张图片，点击一个按钮，背景就消失了。在这简单的交互背后……

#background removal #computer vision #image segmentation #machine learning #deep learning #AI tools
4个月前 · software · - · -

在 iOS 上使用 Metal 渲染相机 (AVFoundation + MetalKit)

使用 Metal 渲染摄像头视频，无需 AVCaptureVideoPreviewLayer。在本教程中，我们将直接在屏幕上渲染摄像头视频，使用…

#iOS #Metal #AVFoundation #MetalKit #camera #video rendering #Swift #shaders #AR #computer vision #machine learning
4个月前 · ai · - · -

[Paper] MemFlow：流动的自适应记忆用于一致且高效的长视频叙事

流式视频生成的核心挑战是保持长上下文中的内容一致性，这对内存设计提出了很高的要求。Mo...

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] TimeLens：重新思考视频时序定位与多模态 LLMs

本论文并未提出新方法，而是为视频时间定位（VTG）建立了一个直接、渐进且必不可少的基线，……

#research #paper #ai #machine-learning #nlp #computer-vision
4个月前 · ai · - · -

[Paper] 球面 Leech 量化用于视觉标记化与生成

非参数量化因其在参数上的高效性以及对大码本的可扩展性而受到广泛关注。本文中，我们提出了一种 uni...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] CRISP：接触引导的 Real2Sim 从单目视频与平面场景基元

我们介绍了 CRISP，这是一种从单目视频中恢复可模拟的人体运动和场景几何的方法。先前关于人‑场景联合重建的工作…

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 原生且紧凑的结构化潜在用于3D生成

近年来，3D 生成建模的最新进展显著提升了生成的真实感，但该领域仍受到现有表示方式的限制，……

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

[Paper] MMGR: 多模态生成推理

Video foundation models 生成视觉上逼真且时间上连贯的内容，但它们作为 world simulators 的可靠性取决于它们是否捕捉到 …

#research #paper #ai #nlp #computer-vision
4个月前 · ai · - · -

[Paper] VASA-3D：单张图像的逼真音频驱动 Gaussian 头部化身

我们提出 VASA-3D，一种音频驱动的单次拍摄 3D 头部化身生成器。本研究解决了两个主要挑战：捕捉细微的表情细节 p...

#research #paper #ai #machine-learning #computer-vision
4个月前 · ai · - · -

【论文】ART: 关节式重建Transformer

我们介绍 ART，Articulated Reconstruction Transformer —— 一个类别无关的前馈模型，能够仅凭 … 重建完整的 3D 铰接对象。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] EVOLVE-VLA: 基于环境反馈的测试时训练用于视觉-语言-动作模型

实现真正的自适应具身智能需要代理不仅通过模仿静态示范来学习，而是通过在环境中持续改进来不断提升。

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 通过 Semiotic Isotopy 引导的数据集构建提升视觉情感分析

视觉情感分析（VSA）是一项具有挑战性的任务，因为情感显著的图像种类繁多，并且获取足够的……

#research #paper #ai #computer-vision
4个月前 · ai · - · -

[Paper] 多中心基准：基于Multiple Instance Learning模型的HE染色全切片图像淋巴瘤亚型划分

及时且准确的淋巴瘤诊断对于指导癌症治疗至关重要。标准诊断实践结合了苏木精-伊红（HE）染色的全…

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts