computer-vision — Page 30

1个月前 · ai

[Paper] VisualActBench：VLM 能像人类一样看和行动吗？

视觉语言模型（VLMs）在感知和描述视觉环境方面取得了令人印象深刻的进展。然而，它们主动推理的能力……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] YOPO-Nav：使用一次性视频的3DGS图进行视觉导航

视觉导航已成为一种实用的替代方案，取代了依赖详细映射和路径规划的传统机器人导航流水线。然而，c...

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 视觉航向预测用于自主空中飞行器

无人机（UAVs）与无人地面车辆（UGVs）的融合正日益成为智能自主系统发展的核心……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] 基准测试文档解析器在PDF中的数学公式提取

正确地从 PDF 中解析数学公式对于训练大型语言模型以及从学术文献构建科学知识库至关重要……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 用于光谱变异建模的高光谱解混的扩散后验采样器

线性光谱混合模型（LMM）提供了一种简洁的形式来解耦组成材料（endmembers）及其相应的比例（abundance）...

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] MedForget：层次感知多模态遗忘测试平台用于医学 AI

预训练的多模态大型语言模型（MLLMs）正日益被部署在医学 AI 系统中，用于临床推理、诊断支持和报告生成……

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · software

介绍 GoCVKit：在 Go 中实现零样板计算机视觉

嗨，亲爱的 Gophers！如果你在 Go 中使用过计算机视觉，你就会知道 GoCV 在调用 OpenCV 功能方面非常棒。但现实是？样板代码…

#Go #GoCV #computer-vision #OpenCV #framework #real-time #zero-boilerplate #hot-reload #double-buffered #pipeline
1个月前 · ai

[Paper] ChronosOmni: 提升 Omni 大型语言模型的时间感知

时间感知是 omni 大型语言模型的一项基本能力，尤其在理解长视频和回答复杂问题时。先前的做法…

#research #paper #ai #nlp #computer-vision
1个月前 · ai

RoboCrop：教机器人如何采摘番茄

请提供您希望翻译的文章摘录或摘要文本，我才能为您进行翻译。

#robotics #agricultural automation #computer vision #machine learning #tomato harvesting #AI in farming
1个月前 · ai

[Paper] SynthPix：光速PIV图像生成器

我们描述了 SynthPix，这是一种用于粒子图像测速 (PIV) 的合成图像生成器，重点关注在加速器上的性能和并行性，实现了……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] 神经形态眼动跟踪用于低延迟瞳孔检测

可穿戴系统的眼动追踪需要低延迟和毫瓦级功耗，但传统的基于帧的 pipelines 在运动模糊和高 compute 方面表现不佳……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 面向边缘的隐私增强 Vision Transformers 分布式框架

如今，视觉智能工具已经无处不在，提供了各种便利和可能性。然而，这些工具的计算需求很高，...

#research #paper #ai #computer-vision

Newer posts

Older posts