· ai · - · -
[Paper] 混合放大倍率聚合用于计算病理学的可推广区域级表征
近年来,出现了一种标准的计算病理工作流程,将 whole slide images 裁剪成 tiles,这些 tiles 使用一个 foun...
近年来,出现了一种标准的计算病理工作流程,将 whole slide images 裁剪成 tiles,这些 tiles 使用一个 foun...
对象幻觉是大型视觉语言模型(LVLMs)的一个关键问题,模型的输出可能包含输入图像中不存在的对象。一个自然…
医学视觉语言预训练越来越依赖医学报告作为大规模监督信号;然而,原始报告往往表现出显著的 st...
最近在 Multimodal Large Language Models 方面的进展大幅提升了视觉理解和推理能力,然而它们的 quadratic attention 和 offline training …
已清理的 Markdown 版本
Test-time training (TTT) 与 KV 绑定作为序列建模层通常被解释为一种在线元学习形式,它记忆键值映射……
视觉强化学习在机器人领域很有吸引力,但成本高——off-policy 方法样本效率高,却速度慢;on-policy 方法并行化效果好,但...
我们研究在任何模态下用于后期交互的高效多向量检索。后期交互已成为信息检索中的主导范式……
Embodied LLMs 为机器人赋予高级任务推理能力,但它们无法反思出错的原因或原因,从而使部署变成一系列独立的……
冷冻电子断层成像(cryo-ET)能够实现对生物结构的高分辨率三维重建,包括膜和膜蛋白……
最近的扩散方法由于其强大的视觉生成能力,在从单张图像生成视频方面取得了显著进展。然而,c...
虽然视觉语言模型(VLMs)在二维视觉理解方面表现出色,但它们对三维空间的理解和推理能力——空间的基石——……