computer-vision — Page 4

排序:

3周前 · ai · - · -

[Paper] 停止漂移：通过元认知推理实现高效 Vision-Language Navigation

无需训练的 Vision-Language Navigation (VLN) 代理由 foundation models 驱动，能够遵循指令并探索 3D 环境。然而，现有的 approa...

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 流媒体视频理解的简易基线

近期的流媒体视频理解方法日益依赖复杂的记忆机制来处理长视频流。我们用一种简单的…来挑战这一趋势。

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] VOID：视频对象与交互删除

现有的视频对象移除方法在对对象后面的内容进行inpainting以及纠正外观层面的伪影（如阴影和反射）方面表现出色。

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] Omni123：通过统一文本到2D和3D生成，探索在有限3D数据下的3D原生基础模型

近期，多模态大型语言模型在统一的文本和图像理解与生成方面取得了强劲的性能，但要扩展这种原生能力……

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] 新颖的记忆遗忘技术用于自主AI代理：在相关性与效率之间取得平衡

Long-horizon 对话代理需要持久记忆以实现连贯推理，然而不受控制的累积会导致时间衰减和虚假记忆的传播……

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] 使用浅层循环解码器从短时间序列进行潜在相位推断 (LAPIS-SHRED)

从空间和时间上稀疏的观测中重建完整的 spatio-temporal dynamics 仍然是复杂系统中的核心挑战，因为测量可能…

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] TRACE：通过可触知重建和几何对齐的上下文视频掩码实现高保真 3D 场景编辑

我们提出了 TRACE，一个基于网格引导的 3DGS 编辑框架，实现了自动化、高保真度的场景转换。通过使用显式的 3…

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 神经谐波纹理用于高质量基元式神经重建

基于基元的方法，如 3D Gaussian Splatting，最近已成为新视角合成及相关重建任务的最先进技术。Compa...

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] True (VIS) Lies：分析生成式 AI 如何识别可视化谎言中的意图性、修辞与误导性

本研究调查了多模态大型语言模型（LLMs）识别和解释误导性可视化的能力，并识别这些观…

#research #paper #ai #nlp #computer-vision
3周前 · ai · - · -

[Paper] Open-Set 监督式 3D 异常检测：工业数据集与面向未知缺陷的通用框架

虽然自监督的3D异常检测假设获取高精度点云在计算上成本高昂，但在实际制造场景中……

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 面向个性化飞镖训练：基于骨架的生物力学分析与运动建模的数据驱动框架

随着体育训练日益数据化，主要依赖经验和目视观察的传统飞镖教练已越来越无法满足高水平……

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

预览工具帮助创客可视化 3D 打印对象

VisiPrint：AI 驱动的 3D 打印对象美学预览设计师、制造者以及其他创作者经常使用 3D 打印来快速原型化各种…

#3D printing #preview tool #VisiPrint #AI rendering #computer vision #MIT research #additive manufacturing
3周前 · ai · - · -

[Paper] OmniRoam：通过长时程全景视频生成实现世界漫游

使用视频生成模型对场景进行建模近年来已引起日益增长的研究兴趣。然而，大多数现有方法依赖于透视视频……

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 视频模型提前推理：利用计划承诺进行迷宫求解

视频扩散模型展现出诸如解迷宫和拼图等新兴推理能力，但人们对它们在生成过程中的推理方式知之甚少……

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 3D几何计算机视觉中博士级编码的基准测试

AI辅助编码已迅速重塑软件实践和研究工作流，但当今的模型仍然难以为复杂的三维地质力学代码生成正确的结果。

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 条件极化引导用于伪装目标检测

伪装目标检测（Camouflaged object detection，COD）旨在识别与背景高度融合的目标。近期研究表明，optical characteristics……

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] SurgNavAR：一种用于光学透视式头戴显示器的增强现实外科导航框架

增强现实（AR）设备配备头戴显示器（HMD），能够在手术期间将三维术前影像数据直接叠加到患者身上。

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 三模态深度学习用于胶质瘤生存预测：整合组织病理学、基因表达和MRI的可行性研究

Multimodal deep learning 通过整合 histopathology 和 genomic data 提高了脑肿瘤的预后准确性，然而 volumetric M...

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] 通过多尺度自适应图注意力学习结构-功能脑表征以实现认知洞察

理解大脑结构与功能的相互作用是解释智力的关键，但将它们联合建模具有挑战性，因为结构和功能……

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 为外科基础模型扩展视频预训练

Surgical video understanding 对于 computer-assisted interventions 至关重要，然而现有的 surgical foundation models 仍受限于数据规模有限，...

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] SurgTEMP：具备时间感知的外科视频问答与文本引导的视觉记忆用于腹腔镜胆囊切除术

外科手术本质上复杂且风险高，需要广泛的专业知识和持续的专注，以便在不断变化的术中场景中顺利导航。Computer...

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] NeuroBRIDGE：行为条件化的 Koopman Dynamics 与 Riemannian Alignment 用于从纵向 Functional Connectome 预测早期药物使用启动

对有药物使用启动风险的青少年进行早期识别至关重要，但却很困难，因为大多数预测因素将连通性视为静态或交叉……

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 少即是多？对高重要性区域的选择性视觉注意用于多模态放射学摘要

自动化放射学报告摘要旨在将冗长的发现提炼为简洁的临床印象，但现有的多模态模型常常在...方面遇到困难。

#research #paper #ai #nlp #computer-vision
3周前 · ai · - · -

[Paper] 存储更少，发现更多：新颖性过滤如何提升边缘摄像头的跨模态检索

始终开启的 edge cameras 生成连续的视频流，其中冗余帧会通过挤占 top‑k 搜索的正确结果，降低 cross‑modal retrieval 的效果。T...

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 超越 Corner Patches：语义感知 Backdoor Attack 在 Federated Learning 中

对联邦学习（FL）的后门攻击通常使用合成的角落补丁或分布外（OOD）模式进行评估，这些模式不太可能出现……

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] HandX：扩展双手运动与交互生成

合成 human motion 发展迅速，但 realistic hand motion 和 bimanual interaction 仍未得到充分研究。Whole-body models 往往忽略细粒度的——

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] PoseDreamer：可扩展且逼真的人体数据生成流水线，使用 Diffusion Models

获取用于3D人体网格估计的标注数据集具有挑战性，因为存在深度歧义，并且从单目图像对3D几何进行标注本身就很困难。

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 在上下文空间中即时排斥以实现 Diffusion Transformers 的丰富多样性

现代文本到图像（Text-to-Image，T2I）扩散模型已实现了显著的语义对齐，但它们常常存在显著的多样性缺失，趋向于……

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] SHOW3D：在野外捕获3D手部和物体场景

在操作过程中对人手和物体的精确3D理解仍然是自体视觉的一个重大挑战。现有的hand‑object...

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] SonoWorld：从单张图像到 3D 音视频场景

在视觉场景生成方面取得了巨大的进展，现在可以将单张图像转化为可探索的3D世界，但没有声音，沉浸感仍然不完整。我们介绍…

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] Pandora: 可关节的3D场景图来自自我视角视觉

机器人映射系统通常通过机器人自身的传感器和摄像头来构建度量-语义场景表示。然而，这些“第一人称……”

#research #paper #ai #computer-vision
3周前 · ai · - · -

[论文] SOLE‑R1：Video‑Language Reasoning 作为 On‑Robot 强化学习的唯一奖励

视觉语言模型（VLMs）在各种任务中展示了令人印象深刻的能力，激发了利用这些模型来监督机器人学习的努力。

#research #paper #ai #nlp #computer-vision
3周前 · ai · - · -

[论文] 流匹配模型上 GRPO 的逐步信用分配

Flow‑GRPO 成功地将强化学习应用于流模型，但在所有步骤中使用了统一的信用分配。这忽略了时间结构……

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] 为什么整体准确率不足以评估执法人脸识别系统的公平性

面部识别系统正日益在执法和安保领域部署，在这些场景中，算法决策可能带来重大的社会后果。

#research #paper #ai #machine-learning #computer-vision
3周前 · software · - · -

OCR 对施工文档无法工作，我们已修复

端点 POST /v1/drawings/detection/doors 检测建筑平面图 PDF 中的门。接受先前上传的 document_id，将推理任务加入队列，并重新…

#OCR #computer-vision #API #architectural-drawings #door-detection #PDF #AnchorGrid #inference #bounding-boxes
3周前 · ai · - · -

[Paper] ResAdapt：自适应分辨率用于高效多模态推理

多模态大语言模型（MLLMs）通过提升输入保真度实现更强的视觉理解，但随之而来的视觉标记增长使得联合…

#research #paper #ai #machine-learning #nlp #computer-vision
3周前 · ai · - · -

我们在数百万真实照片上训练了皮肤分析AI模型——在生产环境中真正有效的做法

在过去的几年里，我们一直在构建一个以移动为先的 AI 皮肤分析系统（https://skinive.com/），该系统已被全球超过 1,000,000 名用户使用，除美国和加拿大之外。

#skin analysis #computer vision #mobile AI #production machine learning #real-world dataset #validation set #model deployment #deep learning
3周前 · ai · - · -

[Paper] 基于机会运动的详细几何与外观

从稀疏的固定摄像头集合中重建 3D 几何和外观是一项基础任务，具有广泛的应用，但它仍然在根本上受到限制……

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] GaussianGPT：迈向自回归的 3D Gaussian 场景生成

最近在3D生成建模方面的进展主要依赖于 diffusion 或 flow‑matching 形式。我们则探索一种完全 autoregressive 的替代方案，并引入…

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 零样本深度从散焦

Depth from Defocus (DfD) 是从 focus stack 估计稠密度量深度图的任务。与之前过度拟合于特定数据集的工作不同，这篇论文……

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 可调软等变性及保证

Equivariance 是计算机视觉模型的基本属性，然而在真实世界数据中严格的等变性很少得到满足，这可能限制模型的性能……

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] PerceptionComp：用于复杂感知中心推理的视频基准

我们引入 PerceptionComp，这是一个手动标注的基准，用于复杂、长时程、以感知为中心的视频推理。PerceptionComp 的设计目标是使得没有…

#research #paper #ai #machine-learning #nlp #computer-vision
3周前 · ai · - · -

[Paper] 超越语言：在自我视角视觉中通过手指指向实现指称表达的落地

传统的视觉定位（VG）主要依赖文本描述来定位对象，这一范式本质上在语言歧义方面存在困难，...

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 让几何在空间推理中发挥作用

在大规模训练的赋能下，视觉语言模型（VLMs）实现了强大的图像和视频理解，但它们在空间推理方面的能力仍然有限……

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] 通过 Dynamic-Scene SfM 与 Distortion-Aware Gaussian Splatting 实现 Drive-Through 3D 车辆外观重建

高保真3D重建车辆外观可以提升买家在在线汽车市场的信心，但在杂乱的经销商环境中生成这些模型……

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 思考轨迹：利用视频生成重建来自蜂窝信号的 GPS 轨迹

移动设备持续与蜂窝基站交互，生成海量的信令记录，为理解……提供了广泛的覆盖。

#research #paper #ai #machine-learning #computer-vision
3周前 · ai · - · -

[Paper] VGGRPO：迈向全局一致的视频生成与4D潜在奖励

大规模视频扩散模型实现了令人印象深刻的视觉质量，但往往未能保持几何一致性。先前的方法改进了一致性 eit...

#research #paper #ai #computer-vision
3周前 · ai · - · -

[Paper] 生成即压缩：Zero-Shot 视频编码 via Stochastic Rectified Flow

现有的生成式视频压缩方法仅将生成模型用作传统编解码器之上的事后重建模块。我们提出 Generative Vide...

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts