[Paper] 自信陷阱:性别偏见与预测确定性在 LLMs 中
在敏感领域中对大型语言模型(LLMs)的使用日益增加,导致人们对其置信分数与公平性和偏见之间的对应关系产生了越来越大的兴趣……
在敏感领域中对大型语言模型(LLMs)的使用日益增加,导致人们对其置信分数与公平性和偏见之间的对应关系产生了越来越大的兴趣……
遥感变化检测根本上依赖于对双时相特征的有效融合和判别。主流范式通常采用…
大型语言模型(LLMs)正日益被用作学习的对话伙伴,然而支持用户学习和参与的互动动态……
欧洲航天局(ESA),受其在计划中的月球任务以及 Argonaut lander 的雄心驱动,对可靠的 crater detection 有着深厚的兴趣。
大型语言模型(LLMs)越来越多地被评估其执行多跳推理的能力,即将多个信息片段组合成……
系统日志对于监控和诊断现代计算基础设施至关重要,但它们的规模和复杂性需要可靠且高效的自动化……
随着大型语言模型(LLMs),如 ChatGPT、Copilot、Claude 和 Gemini,逐渐融入软件开发工作流,开发者越来越…
LLM agents 在庞大且动态的 tool libraries 上运行,依赖有效的检索,然而标准的 single-shot dense retrievers 在处理复杂请求时表现乏力……
虽然Chain-of-Thought(CoT)提示提升了LLM的推理能力,但在一致性、准确性和自我纠正方面仍然存在挑战,尤其是针对复杂或伦理…
虽然 Vision-Language Models(VLMs)显著推动了 Computer-Using Agents(CUAs)的发展,但当前框架在长时程工作流的鲁棒性方面仍然存在困难……
我们介绍 DT-ICU,这是一种用于重症监护中连续风险估计的多模态 digital twin 框架。DT-ICU 集成了可变长度的临床时间序列……
最近的工作如 REPA 已经表明,使用外部语义特征(例如 DINO)来引导 diffusion models 可以显著加速其训练。
大型语言模型(LLMs)能够产生出令人惊讶的相当复杂的自身不确定性估计。然而,仍然不清楚这种表达的程度……
理解叙事需要识别哪些事件对故事进展最为突出。我们提出了一种对比学习框架用于建模……
大型视觉语言模型(LVLMs)在视频推理中面临根本性的两难困境:它们被冗长推理的高昂计算成本所束缚……
Kolmogorov-Arnold Networks (KANs) 已显示出在高效逼近复杂非线性函数方面的强大潜力。然而,原始的 KAN 公式 r...
使用判别观测量对事件进行分类是许多高能物理分析的核心。然而,bin 边界通常是手工选择的。一个简单的、流行的……
数值推理是金融文档分析中的重要任务。它有助于理解并进行具有逻辑一致性的数值预测。
估计 Riesz 代表元是去偏机器学习中用于因果和结构参数估计的核心问题。针对 Riesz 代表元的各种方法……
在本工作中,我们分析了多种 Wasserstein 距离的变体,这些变体能够将分类聚焦在指定的(片段)部分上。
Self-supervised pre-training with contrastive learning 是一种从稀疏标注数据中学习的强大方法。然而,性能可能会显著下降……
我们提出了 UAIT(Uncommon-sense Action Image-Text)数据集,这是一项新的评估基准,旨在测试视觉语言模型的语义理解能力……
在复杂的、非结构化环境中实现稳健的人形徒步,需要从被动的本体感知转向主动的感知。然而,int...
在本工作中,我们提出了一种分布式实现的原始-对偶混合梯度(PDHG)算法,用于求解大规模线性规划(LP)问题……