[Paper] 自信陷阱:性别偏见与预测确定性在 LLMs 中
在敏感领域中对大型语言模型(LLMs)的使用日益增加,导致人们对其置信分数与公平性和偏见之间的对应关系产生了越来越大的兴趣……
在敏感领域中对大型语言模型(LLMs)的使用日益增加,导致人们对其置信分数与公平性和偏见之间的对应关系产生了越来越大的兴趣……
大型语言模型(LLMs)越来越多地被评估其执行多跳推理的能力,即将多个信息片段组合成……
系统日志对于监控和诊断现代计算基础设施至关重要,但它们的规模和复杂性需要可靠且高效的自动化……
LLM agents 在庞大且动态的 tool libraries 上运行,依赖有效的检索,然而标准的 single-shot dense retrievers 在处理复杂请求时表现乏力……
虽然 Vision-Language Models(VLMs)显著推动了 Computer-Using Agents(CUAs)的发展,但当前框架在长时程工作流的鲁棒性方面仍然存在困难……
我们介绍 DT-ICU,这是一种用于重症监护中连续风险估计的多模态 digital twin 框架。DT-ICU 集成了可变长度的临床时间序列……
大型语言模型(LLMs)能够产生出令人惊讶的相当复杂的自身不确定性估计。然而,仍然不清楚这种表达的程度……
Kolmogorov-Arnold Networks (KANs) 已显示出在高效逼近复杂非线性函数方面的强大潜力。然而,原始的 KAN 公式 r...
使用判别观测量对事件进行分类是许多高能物理分析的核心。然而,bin 边界通常是手工选择的。一个简单的、流行的……
估计 Riesz 代表元是去偏机器学习中用于因果和结构参数估计的核心问题。针对 Riesz 代表元的各种方法……
Self-supervised pre-training with contrastive learning 是一种从稀疏标注数据中学习的强大方法。然而,性能可能会显著下降……
我们提出了 UAIT(Uncommon-sense Action Image-Text)数据集,这是一项新的评估基准,旨在测试视觉语言模型的语义理解能力……