[Paper] EoS-FM:专家模型集合能作为通用特征提取器吗?
近期在 foundation models 方面的进展在 natural language processing 和 computer vision 等领域显示出巨大前景,类似的努力现在正在…
近期在 foundation models 方面的进展在 natural language processing 和 computer vision 等领域显示出巨大前景,类似的努力现在正在…
抗核抗体(ANA)检测是诊断自身免疫性疾病(包括系统性红斑狼疮、干燥综合征和硬皮病)的关键方法。尽管它的…
深度伪造检测方法的有效性往往不太取决于其核心设计,而更取决于实现细节,例如数据预处理、增强……
我们提出了 Cross-Attention-based Non-local Knowledge Distillation (CanKD),一种利用 cross-attention 的新型基于特征的知识蒸馏框架。
我们提出了一种新颖的训练方法 Merge-and-Bound (M&B),用于类别增量学习 (CIL),该方法直接在参数空间中操作模型权重,以实现高效且稳健的增量学习...
Vision Transformers 在各种计算机视觉任务中表现出卓越的性能,但它们相对于 token 的二次计算复杂度……
最近,视频生成取得了快速进展,越来越多的关注集中在移动设备上的图像到视频(I2V)合成上。然而,子...
事件相机产生的异步事件流在空间上稀疏,但在时间上密集。主流的 event representation learning algorithms 通常…
3D 重组是一个基本的几何问题,近年来它越来越多地受到深度学习方法的挑战,而不是传统的优化方法。
遥感变化描述是一个新兴且受欢迎的研究任务,旨在用自然语言描述已发生变化的感兴趣内容……
‘以图像思考’已成为推进视觉推理的有效范式,通过注入视觉证据,超越仅文本的思考链……
时空视频定位(STVG)需要根据自然语言描述,在未剪辑的视频中同时在时间和空间上定位目标对象。