computer vision — Page 14

排序:

3个月前 · ai · - · -

[Paper] 视觉语言模型用于精确陨石坑检测

欧洲航天局（ESA），受其在计划中的月球任务以及 Argonaut lander 的雄心驱动，对可靠的 crater detection 有着深厚的兴趣。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] OS-Symphony：用于稳健且通用的计算机使用代理的整体框架

虽然 Vision-Language Models（VLMs）显著推动了 Computer-Using Agents（CUAs）的发展，但当前框架在长时程工作流的鲁棒性方面仍然存在困难……

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

[Paper] 超越外部指导：释放扩散Transformer内部的语义丰富性以提升训练

最近的工作如 REPA 已经表明，使用外部语义特征（例如 DINO）来引导 diffusion models 可以显著加速其训练。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] 视频证据推理：通过显式证据定位实现高效视频理解

大型视觉语言模型（LVLMs）在视频推理中面临根本性的两难困境：它们被冗长推理的高昂计算成本所束缚……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 关于 Wasserstein metric 在二维曲线分类中的应用

在本工作中，我们分析了多种 Wasserstein 距离的变体，这些变体能够将分类聚焦在指定的（片段）部分上。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 评估视觉语言模型在不常见动作上的编码能力

我们提出了 UAIT（Uncommon-sense Action Image-Text）数据集，这是一项新的评估基准，旨在测试视觉语言模型的语义理解能力……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] SC-MII：基于基础设施 LiDAR 的 3D 目标检测在边缘设备上的分割计算与多中间输出集成

使用基于 LiDAR 的点云数据和深度神经网络进行 3D 目标检测是自动驾驶技术的关键。然而，部署最先进的...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

构建生产就绪的交通违规检测系统（计算机视觉）

交通监控与违规检测是一个经典的计算机视觉问题，看似简单，却在真实场景中迅速变得复杂。该任务涉及从摄像头获取的连续视频流中检测、跟踪和分析车辆及行人的行为，以识别诸如闯红灯、超速、违章变道、占用应急车道以及非法停车等违规行为。实现高精度的违规检测需要克服多种挑战，包括光照变化、天气影响、遮挡、摄像头视角差异、车辆外观多样性以及实时处理的计算约束。本文综述了交通监控与违规检测的最新研究进展，重点关注以下几个方面： 1. **目标检测与分割** - 基于深度学习的两阶段（如 Faster R-CNN、Mask R-CNN）和单阶段（如 YOLOv5、SSD、EfficientDet）检测框架在道路场景中的适配与改进。 - 语义分割与实例分割模型（如 DeepLabv3+、Panoptic FPN）用于提取车道线、交通标志和路面区域，以辅助行为理解。 2. **多目标跟踪（MOT）** - 传统基于卡尔曼滤波和匈牙利算法的跟踪方法与基于深度特征关联的端到端跟踪网络（如 DeepSORT、ByteTrack、TrackFormer）的比较。 - 在拥堵或遮挡严重的交叉口场景中，引入图神经网络（GNN）或注意力机制提升跨帧身份保持的鲁棒性。 3. **行为识别与违规判定** - 基于时空特征的行为分类模型，包括 3D CNN（如 I3D、SlowFast）和时序卷积网络（TCN），用于捕捉车辆加速、减速和转向等动态模式。 - 轨迹分析方法：利用贝塞尔曲线拟合、多项式回归或基于 Kalman/Particle Filter 的轨迹预测，对比实际轨迹与交通规则（如红灯时段、限速区间）进行违规判定。 - 事件驱动的规则引擎：将检测到的视觉事件映射到预定义的违规规则库，支持灵活的规则更新和本地化法规适配。 4. **多摄像头协同与跨视角融合** - 基于同质或异质摄像头网络的跨视角目标重识别（ReID）技术，利用全局特征和局部关键点对车辆进行跨摄像头身份匹配。 - 空间几何校准（如基于标定板或道路标线的单应性矩阵）与时间同步机制，构建统一的全局坐标系，实现跨摄像头的连续轨迹跟踪。 5. **实时推理与系统部署** - 模型压缩与加速：剪枝、量化、知识蒸馏以及 TensorRT、ONNX Runtime 等推理引擎在嵌入式 GPU/TPU 上的部署实践。 - 边缘计算与云端协同：在摄像头端完成初步检测与跟踪，复杂违规判定和历史数据存储迁移至云端，以平衡延迟和算力需求。 6. **数据集与评估指标** - 公共基准数据集：UA‑Detrac、MOT17、KITTI‑Tracking、CityFlow、D2‑CityScapes、BDD100K‑Traffic 等，涵盖不同城市、天气和摄像头布局。 - 评价指标：mAP、Recall、IDF1、MOTA、MOTP 用于检测与跟踪性能评估；违规检测则采用 Precision、Recall、F1‑Score 以及延迟（Latency）等业务相关指标。 7. **挑战与未来方向** - **鲁棒性**：提升模型在极端天气（雨、雪、雾）和夜间低光环境下的检测与跟踪能力。 - **可解释性**：构建可视化的违规判定路径，帮助监管人员理解模型决策过程。 - **跨域适应**：利用无监督域适应或自监督学习降低不同城市、摄像头配置之间的性能落差。 - **法规融合**：将本地交通法规与模型输出进行动态映射，实现“一键”规则更新和多地区部署。 - **隐私保护**：在满足 GDPR 等数据保护法规的前提下，探索加密推理和匿名化特征提取技术。综上所述，交通监控与违规检测正从单纯的目标检测向融合多模态感知、跨摄像头协同、实时推理和法规智能化的综合系统演进。随着更高效的深度模型、强大的边缘计算平台以及更丰富的标注数据的出现，未来的智能交通系统有望实现更高的安全性、效率和可持续性，为智慧城市建设提供坚实的技术支撑。

#computer vision #traffic monitoring #violation detection #object detection #video analytics #deep learning #object tracking #production deployment
3个月前 · ai · - · -

未来代理的大脑：为何 VL-JEPA 对真实世界 AI 至关重要

“生成”陷阱如果你最近在关注 AI，你知道这个流程：输入 → 生成。- 你给 ChatGPT、Gemini 或 Claude 一个提示 → 它生成...

#VL-JEPA #vision-language models #generative AI #multimodal learning #efficiency in AI #LLM #computer vision
3个月前 · ai · - · -

[Paper] Deepfake 检测器是 DUMB：一个用于评估在可转移性约束下 adversarial training 鲁棒性的基准

在真实环境中部署的 Deepfake 检测系统面临能够制造不可察觉扰动的对手，这些扰动会削弱模型的性能……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 自适应条件对比无关可变形图像配准与不确定性估计

Deformable multi-contrast image registration 是一项具有挑战性但至关重要的任务，因为不同成像对比之间存在复杂的非线性强度关系……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] VideoAR：自回归视频生成通过下一帧与尺度预测

近期视频生成的进展主要由 diffusion 和 flow-matching 模型主导，这些模型能够产生高质量的结果，但在计算上仍然…

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] WaveRNet: 小波引导的频率学习用于多源域通用视网膜血管分割

领域通用的 retinal vessel segmentation 对自动化 ophthalmic diagnosis 至关重要，但却面临由非…引起的 domain shift 的显著挑战。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Context-Aware Decoding 用于忠实的视觉-语言生成

幻觉，即生成与视觉输入不一致的响应，仍然是大规模视觉语言模型（LVLMs）的关键限制，尤其在…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 基于深度学习的胰腺肿瘤分割模型在公开内镜超声数据集上的表现

背景：胰腺癌是最具侵袭性的癌症之一，生存率低。内镜超声（EUS）是关键的诊断手段，但其...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 将 Vision Transformers 适配到超高分辨率语义分割的 Relay Tokens

当前对超高分辨率图像进行分割的方法要么采用滑动窗口，从而丢失全局上下文，要么进行下采样，导致细节丢失。我们 ...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Phase4DFD：用于深度伪造检测的多域相位感知注意力

近期的深度伪造检测方法越来越多地探索频域表示，以揭示在时域中难以检测的操纵伪影。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] 双向通道选择式语义交互用于半监督医学分割

半监督医学图像分割是一种有效的方法，用于应对标注数据有限的场景。现有方法主要依赖于框架……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] LayerGS：通过2D Gaussian Splatting对分层3D人类化身进行分解与修补

我们提出了一种新颖的框架，将任意姿态的人体分解为可动画的多层 3D 人体化身，并实现身体与服装的分离。Conventi...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

静默管道助手 – 非对话式零售智能代理

这是对 Algolia Agent Studio Challenge https://dev.to/challenges/algolia 的提交：面向消费者的非对话式体验我构建的 Silent…

#AI agent #visual search #retail intelligence #product recommendation #non‑conversational AI #computer vision
3个月前 · ai · - · -

[论文] Mesh4D：单目视频中的4D网格重建与跟踪

我们提出了 Mesh4D，一种用于单目 4D 网格重建的前馈模型。给定一个动态物体的单目视频，我们的模型能够重建该物体的…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] QNeRF：神经辐射场在模拟的基于门的量子计算机上

最近，Quantum Visual Fields（QVFs）在模型紧凑性和收敛速度方面表现出有希望的改进，用于学习提供的2D或3D信号……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] RL-AWB：深度强化学习用于低光夜间场景的自动白平衡校正

夜间颜色恒常性仍然是计算摄影中的一个具有挑战性的问题，因为低光噪声和复杂的照明条件。我们提出了 RL‑A…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Pixel-Perfect 视觉几何估计

从图像中恢复干净且精确的几何形状对于机器人技术和增强现实至关重要。然而，现有的 geometry foundation models 仍然存在 se...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 生成、迁移、适应：从单个人类示例学习 Functional Dexterous Grasping

功能性抓取与灵巧机器人手是实现工具使用和复杂操作的关键能力，但进展受到两个方面的限制……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] GREx：通用指称表达分割、理解与生成

指称表达分割（RES）和指称表达理解（REC）分别对表达式描述的对象进行分割和检测，而指称表达…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] RoboVIP：多视角视频生成与 Visual Identity Prompting 增强机器人操作

多样性、数量和质量的操作数据对于训练有效的机器人策略至关重要。然而，由于硬件和物理设置的限制……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[论文] 全光场视频生成

相机控制的生成式视频重新渲染方法，例如 ReCamMaster，已经取得了显著进展。然而，尽管它们在单视角…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[论文] ObjectForesight：从人类视频中预测未来的3D对象轨迹

人类可以轻松预测物体在交互过程中的运动或变化——想象一只杯子被提起、一把刀在切割，或一个盖子被关闭。W...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 学习潜在动作世界模型在真实环境中

能够在现实世界中进行推理和规划的智能体需要具备预测其行为后果的能力。虽然 world models 具备这种…

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] FlowLet：使用 Wavelet Flow Matching 的条件 3D 脑 MRI 合成

脑磁共振成像（MRI）在研究神经发育、衰老和疾病方面发挥核心作用。一个关键的应用是大脑年龄预测……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] MoE3D：一种用于3D重建的Mixture-of-Experts模块

MoE3D 是一种 mixture-of-experts 模块，旨在锐化深度边界并减轻现有 feed-forward 3D … 中的飞点伪影（红色标出）。

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 视觉语言模型中提示诱导幻觉的机制

大型视觉语言模型（VLMs）功能强大，但常常因偏向文本提示而非视觉证据而产生幻觉。我们在……中研究了这种失效模式。

#research #paper #ai #machine-learning #nlp #computer-vision
3个月前 · ai · - · -

[Paper] 降低 AI 研究成本：Task-Aware Compression 如何让 Large Language Model Agents 变得负担得起

当研究人员将 large language models 用于文献审阅或假设生成等自主任务时，计算费用会迅速累积。A...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] VideoAuto‑R1：一次思考，两次回答的Video Auto Reasoning

链式思考（CoT）推理已成为多模态大型语言模型在视频理解任务中的强大工具。然而，它的必要性和...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] CoV：链式视角提示用于空间推理

具身问答（EQA）在3D环境中通常需要收集分布在多个视角且部分被遮挡的上下文。Ho...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] 轻量且可解释的视觉语言框架用于作物病害视觉问答

针对作物病害分析的 Visual Question Answering 需要准确的视觉理解和可靠的语言生成。本工作提出了一种轻量级的 vi...

#research #paper #ai #nlp #computer-vision
3个月前 · ai · - · -

如何提升视觉异常检测模型的性能

将学术界的最佳方法应用于实践，以获得最大收益。文章《How to Improve the Performance of Visual Anomaly Detection Models》...

#visual anomaly detection #computer vision #model performance #deep learning #anomaly detection
3个月前 · ai · - · -

人工智能在农业中的应用

了解更多关于人工智能在农业中的应用...

#artificial intelligence #machine learning #computer vision #IoT #precision agriculture #crop monitoring #satellite imagery #drones
3个月前 · ai · - · -

[论文] 在五个异构图像数据集上训练自定义CNN

深度学习已经彻底改变了视觉数据分析，卷积神经网络（CNN）在学习有意义的特征表示方面表现出极高的效能……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

从像素到卡路里：使用 GPT-4o 构建多模态餐食分析引擎

🍝 从像素到卡路里——多模态 AI 与自动卡路里追踪我们都有过这样的经历：盯着一盘美味的意面，想弄清楚它是否……

#multimodal AI #GPT-4o #computer vision #nutrition analysis #Streamlit
3个月前 · ai · - · -

[Paper] 编排动态对象的世界

我们物理的4D（3D + 时间）世界中的动态对象不断演化、变形并与其他对象相互作用，导致多样的4D场景动态……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] ImLoc：重新审视基于图像表示的视觉定位

现有的视觉定位方法通常要么是 2D image-based 的，这类方法易于构建和维护，但在有效的几何推理方面受限，或者……

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] 扫描仪引起的域转移削弱了病理基础模型的鲁棒性

病理基础模型（PFMs）已成为计算病理学的核心，旨在提供用于从全切片图像中提取特征的通用编码器……

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[Paper] ToTMNet：FFT 加速的 Toeplitz 时序混合网络用于轻量化远程光电容积描记

远程光电容积描记（rPPG）从普通摄像头捕获的面部视频中估计血容量脉冲（BVP）波形。虽然最近的深度模型 i...

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Diffusion-DRF：用于视频扩散微调的可微奖励流

Direct Preference Optimization (DPO) 最近通过提升视觉保真度和文本对齐，改进了文本到视频（T2V）生成。然而，当前的方法…

#research #paper #ai #computer-vision
3个月前 · ai · - · -

[Paper] Klear: 统一多任务音视频联合生成

音视频联合生成已经快速发展，但仍然存在重大挑战。非商业方法仍然存在音视频不同步的问题，...

#research #paper #ai #machine-learning #computer-vision
3个月前 · ai · - · -

[论文] Wow, wo, val! 全面 Embodied World Model Evaluation Turing Test

随着世界模型在 Embodied AI 中获得动力，越来越多的工作探索使用 video foundation models 作为预测性世界模型，以用于下游 embo...

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts