[Paper] 视觉语言模型用于精确陨石坑检测
欧洲航天局(ESA),受其在计划中的月球任务以及 Argonaut lander 的雄心驱动,对可靠的 crater detection 有着深厚的兴趣。
欧洲航天局(ESA),受其在计划中的月球任务以及 Argonaut lander 的雄心驱动,对可靠的 crater detection 有着深厚的兴趣。
虽然 Vision-Language Models(VLMs)显著推动了 Computer-Using Agents(CUAs)的发展,但当前框架在长时程工作流的鲁棒性方面仍然存在困难……
最近的工作如 REPA 已经表明,使用外部语义特征(例如 DINO)来引导 diffusion models 可以显著加速其训练。
大型视觉语言模型(LVLMs)在视频推理中面临根本性的两难困境:它们被冗长推理的高昂计算成本所束缚……
在本工作中,我们分析了多种 Wasserstein 距离的变体,这些变体能够将分类聚焦在指定的(片段)部分上。
我们提出了 UAIT(Uncommon-sense Action Image-Text)数据集,这是一项新的评估基准,旨在测试视觉语言模型的语义理解能力……
使用基于 LiDAR 的点云数据和深度神经网络进行 3D 目标检测是自动驾驶技术的关键。然而,部署最先进的...
交通监控与违规检测是一个经典的计算机视觉问题,看似简单,却在真实场景中迅速变得复杂。该任务涉及从摄像头获取的连续视频流中检测、跟踪和分析车辆及行人的行为,以识别诸如闯红灯、超速、违章变道、占用应急车道以及非法停车等违规行为。实现高精度的违规检测需要克服多种挑战,包括光照变化、天气影响、遮挡、摄像头视角差异、车辆外观多样性以及实时处理的计算约束。 本文综述了交通监控与违规检测的最新研究进展,重点关注以下几个方面: 1. **目标检测与分割** - 基于深度学习的两阶段(如 Faster R-CNN、Mask R-CNN)和单阶段(如 YOLOv5、SSD、EfficientDet)检测框架在道路场景中的适配与改进。 - 语义分割与实例分割模型(如 DeepLabv3+、Panoptic FPN)用于提取车道线、交通标志和路面区域,以辅助行为理解。 2. **多目标跟踪(MOT)** - 传统基于卡尔曼滤波和匈牙利算法的跟踪方法与基于深度特征关联的端到端跟踪网络(如 DeepSORT、ByteTrack、TrackFormer)的比较。 - 在拥堵或遮挡严重的交叉口场景中,引入图神经网络(GNN)或注意力机制提升跨帧身份保持的鲁棒性。 3. **行为识别与违规判定** - 基于时空特征的行为分类模型,包括 3D CNN(如 I3D、SlowFast)和时序卷积网络(TCN),用于捕捉车辆加速、减速和转向等动态模式。 - 轨迹分析方法:利用贝塞尔曲线拟合、多项式回归或基于 Kalman/Particle Filter 的轨迹预测,对比实际轨迹与交通规则(如红灯时段、限速区间)进行违规判定。 - 事件驱动的规则引擎:将检测到的视觉事件映射到预定义的违规规则库,支持灵活的规则更新和本地化法规适配。 4. **多摄像头协同与跨视角融合** - 基于同质或异质摄像头网络的跨视角目标重识别(ReID)技术,利用全局特征和局部关键点对车辆进行跨摄像头身份匹配。 - 空间几何校准(如基于标定板或道路标线的单应性矩阵)与时间同步机制,构建统一的全局坐标系,实现跨摄像头的连续轨迹跟踪。 5. **实时推理与系统部署** - 模型压缩与加速:剪枝、量化、知识蒸馏以及 TensorRT、ONNX Runtime 等推理引擎在嵌入式 GPU/TPU 上的部署实践。 - 边缘计算与云端协同:在摄像头端完成初步检测与跟踪,复杂违规判定和历史数据存储迁移至云端,以平衡延迟和算力需求。 6. **数据集与评估指标** - 公共基准数据集:UA‑Detrac、MOT17、KITTI‑Tracking、CityFlow、D2‑CityScapes、BDD100K‑Traffic 等,涵盖不同城市、天气和摄像头布局。 - 评价指标:mAP、Recall、IDF1、MOTA、MOTP 用于检测与跟踪性能评估;违规检测则采用 Precision、Recall、F1‑Score 以及延迟(Latency)等业务相关指标。 7. **挑战与未来方向** - **鲁棒性**:提升模型在极端天气(雨、雪、雾)和夜间低光环境下的检测与跟踪能力。 - **可解释性**:构建可视化的违规判定路径,帮助监管人员理解模型决策过程。 - **跨域适应**:利用无监督域适应或自监督学习降低不同城市、摄像头配置之间的性能落差。 - **法规融合**:将本地交通法规与模型输出进行动态映射,实现“一键”规则更新和多地区部署。 - **隐私保护**:在满足 GDPR 等数据保护法规的前提下,探索加密推理和匿名化特征提取技术。 综上所述,交通监控与违规检测正从单纯的目标检测向融合多模态感知、跨摄像头协同、实时推理和法规智能化的综合系统演进。随着更高效的深度模型、强大的边缘计算平台以及更丰富的标注数据的出现,未来的智能交通系统有望实现更高的安全性、效率和可持续性,为智慧城市建设提供坚实的技术支撑。
“生成”陷阱 如果你最近在关注 AI,你知道这个流程:输入 → 生成。- 你给 ChatGPT、Gemini 或 Claude 一个提示 → 它生成...
在真实环境中部署的 Deepfake 检测系统面临能够制造不可察觉扰动的对手,这些扰动会削弱模型的性能……
Deformable multi-contrast image registration 是一项具有挑战性但至关重要的任务,因为不同成像对比之间存在复杂的非线性强度关系……
近期视频生成的进展主要由 diffusion 和 flow-matching 模型主导,这些模型能够产生高质量的结果,但在计算上仍然…
领域通用的 retinal vessel segmentation 对自动化 ophthalmic diagnosis 至关重要,但却面临由非…引起的 domain shift 的显著挑战。
幻觉,即生成与视觉输入不一致的响应,仍然是大规模视觉语言模型(LVLMs)的关键限制,尤其在…
背景:胰腺癌是最具侵袭性的癌症之一,生存率低。内镜超声(EUS)是关键的诊断手段,但其...
当前对超高分辨率图像进行分割的方法要么采用滑动窗口,从而丢失全局上下文,要么进行下采样,导致细节丢失。我们 ...
近期的深度伪造检测方法越来越多地探索频域表示,以揭示在时域中难以检测的操纵伪影。
半监督医学图像分割是一种有效的方法,用于应对标注数据有限的场景。现有方法主要依赖于框架……
我们提出了一种新颖的框架,将任意姿态的人体分解为可动画的多层 3D 人体化身,并实现身体与服装的分离。Conventi...
这是对 Algolia Agent Studio Challenge https://dev.to/challenges/algolia 的提交:面向消费者的非对话式体验 我构建的 Silent…
我们提出了 Mesh4D,一种用于单目 4D 网格重建的前馈模型。给定一个动态物体的单目视频,我们的模型能够重建该物体的…
最近,Quantum Visual Fields(QVFs)在模型紧凑性和收敛速度方面表现出有希望的改进,用于学习提供的2D或3D信号……
夜间颜色恒常性仍然是计算摄影中的一个具有挑战性的问题,因为低光噪声和复杂的照明条件。我们提出了 RL‑A…
从图像中恢复干净且精确的几何形状对于机器人技术和增强现实至关重要。然而,现有的 geometry foundation models 仍然存在 se...
功能性抓取与灵巧机器人手是实现工具使用和复杂操作的关键能力,但进展受到两个方面的限制……
指称表达分割(RES)和指称表达理解(REC)分别对表达式描述的对象进行分割和检测,而指称表达…
多样性、数量和质量的操作数据对于训练有效的机器人策略至关重要。然而,由于硬件和物理设置的限制……
相机控制的生成式视频重新渲染方法,例如 ReCamMaster,已经取得了显著进展。然而,尽管它们在单视角…
人类可以轻松预测物体在交互过程中的运动或变化——想象一只杯子被提起、一把刀在切割,或一个盖子被关闭。W...
能够在现实世界中进行推理和规划的智能体需要具备预测其行为后果的能力。虽然 world models 具备这种…
脑磁共振成像(MRI)在研究神经发育、衰老和疾病方面发挥核心作用。一个关键的应用是大脑年龄预测……
MoE3D 是一种 mixture-of-experts 模块,旨在锐化深度边界并减轻现有 feed-forward 3D … 中的飞点伪影(红色标出)。
大型视觉语言模型(VLMs)功能强大,但常常因偏向文本提示而非视觉证据而产生幻觉。我们在……中研究了这种失效模式。
当研究人员将 large language models 用于文献审阅或假设生成等自主任务时,计算费用会迅速累积。A...
链式思考(CoT)推理已成为多模态大型语言模型在视频理解任务中的强大工具。然而,它的必要性和...
具身问答(EQA)在3D环境中通常需要收集分布在多个视角且部分被遮挡的上下文。Ho...
针对作物病害分析的 Visual Question Answering 需要准确的视觉理解和可靠的语言生成。本工作提出了一种轻量级的 vi...
将学术界的最佳方法应用于实践,以获得最大收益。文章《How to Improve the Performance of Visual Anomaly Detection Models》...
了解更多关于人工智能在农业中的应用...
深度学习已经彻底改变了视觉数据分析,卷积神经网络(CNN)在学习有意义的特征表示方面表现出极高的效能……
🍝 从像素到卡路里——多模态 AI 与自动卡路里追踪 我们都有过这样的经历:盯着一盘美味的意面,想弄清楚它是否……
我们物理的4D(3D + 时间)世界中的动态对象不断演化、变形并与其他对象相互作用,导致多样的4D场景动态……
现有的视觉定位方法通常要么是 2D image-based 的,这类方法易于构建和维护,但在有效的几何推理方面受限,或者……
病理基础模型(PFMs)已成为计算病理学的核心,旨在提供用于从全切片图像中提取特征的通用编码器……
远程光电容积描记(rPPG)从普通摄像头捕获的面部视频中估计血容量脉冲(BVP)波形。虽然最近的深度模型 i...
Direct Preference Optimization (DPO) 最近通过提升视觉保真度和文本对齐,改进了文本到视频(T2V)生成。然而,当前的方法…
音视频联合生成已经快速发展,但仍然存在重大挑战。非商业方法仍然存在音视频不同步的问题,...
随着世界模型在 Embodied AI 中获得动力,越来越多的工作探索使用 video foundation models 作为预测性世界模型,以用于下游 embo...