[Paper] OS-Symphony:用于稳健且通用的计算机使用代理的整体框架
虽然 Vision-Language Models(VLMs)显著推动了 Computer-Using Agents(CUAs)的发展,但当前框架在长时程工作流的鲁棒性方面仍然存在困难……
虽然 Vision-Language Models(VLMs)显著推动了 Computer-Using Agents(CUAs)的发展,但当前框架在长时程工作流的鲁棒性方面仍然存在困难……
我们介绍 DT-ICU,这是一种用于重症监护中连续风险估计的多模态 digital twin 框架。DT-ICU 集成了可变长度的临床时间序列……
最近的工作如 REPA 已经表明,使用外部语义特征(例如 DINO)来引导 diffusion models 可以显著加速其训练。
大型语言模型(LLMs)能够产生出令人惊讶的相当复杂的自身不确定性估计。然而,仍然不清楚这种表达的程度……
理解叙事需要识别哪些事件对故事进展最为突出。我们提出了一种对比学习框架用于建模……
大型视觉语言模型(LVLMs)在视频推理中面临根本性的两难困境:它们被冗长推理的高昂计算成本所束缚……
Kolmogorov-Arnold Networks (KANs) 已显示出在高效逼近复杂非线性函数方面的强大潜力。然而,原始的 KAN 公式 r...
使用判别观测量对事件进行分类是许多高能物理分析的核心。然而,bin 边界通常是手工选择的。一个简单的、流行的……
数值推理是金融文档分析中的重要任务。它有助于理解并进行具有逻辑一致性的数值预测。
估计 Riesz 代表元是去偏机器学习中用于因果和结构参数估计的核心问题。针对 Riesz 代表元的各种方法……
在本工作中,我们分析了多种 Wasserstein 距离的变体,这些变体能够将分类聚焦在指定的(片段)部分上。
Self-supervised pre-training with contrastive learning 是一种从稀疏标注数据中学习的强大方法。然而,性能可能会显著下降……