[Paper] 通过基于事件的上下文和置信度提升大语言模型在零样本 ADL 识别中的表现
通过处理从物联网传感设备收集的数据,在智能家居中进行基于无侵入式传感器的日常活动(Activities of Daily Living,ADLs)识别,支持应用……
通过处理从物联网传感设备收集的数据,在智能家居中进行基于无侵入式传感器的日常活动(Activities of Daily Living,ADLs)识别,支持应用……
大型语言模型已成为安全运营中心的变革性工具,能够实现自动化日志分析、网络钓鱼分流和恶意软件解释……
我们提出 RefVFX,一个新的框架,以前馈方式将复杂的 temporal effects 从 reference video 转移到 target video 或 image 上。虽然 e...
虽然 Transformer 架构在许多领域占据主导地位,但其二次方的 self-attention 复杂度阻碍了其在大规模应用中的使用。Linear attention …
大型视觉语言模型(LVLMs)已经展示了卓越的能力,但它们在理解和推理多张图像方面的熟练程度仍然……
遥感变化检测根本上依赖于对双时相特征的有效融合和判别。主流范式通常采用…
欧洲航天局(ESA),受其在计划中的月球任务以及 Argonaut lander 的雄心驱动,对可靠的 crater detection 有着深厚的兴趣。
虽然 Vision-Language Models(VLMs)显著推动了 Computer-Using Agents(CUAs)的发展,但当前框架在长时程工作流的鲁棒性方面仍然存在困难……
最近的工作如 REPA 已经表明,使用外部语义特征(例如 DINO)来引导 diffusion models 可以显著加速其训练。
大型视觉语言模型(LVLMs)在视频推理中面临根本性的两难困境:它们被冗长推理的高昂计算成本所束缚……
在本工作中,我们分析了多种 Wasserstein 距离的变体,这些变体能够将分类聚焦在指定的(片段)部分上。
我们提出了 UAIT(Uncommon-sense Action Image-Text)数据集,这是一项新的评估基准,旨在测试视觉语言模型的语义理解能力……