· ai · - · -
[Paper] 规模无法克服语用学:报告偏差对 Vision-Language Reasoning 的影响
在视觉语言模型(VLMs)的推理能力缺乏一直是研究讨论的前沿。我们认为这种行为源于……
在视觉语言模型(VLMs)的推理能力缺乏一直是研究讨论的前沿。我们认为这种行为源于……
大型语言模型(LLMs)在生物学基准测试中表现日益出色,但仍不清楚它们是否能提升新手用户——即使人类能够……
现实世界的表格-文本问答(QA)任务需要模型能够在长文本和源表格之间进行推理,跨越多跳并执行 co...
扩散语言模型(DLM)常被宣传能够实现并行 token 生成,但实际的快速 DLM 往往会收敛为左到右的自回归模型……
在解码过程中降低大型语言模型(LLMs)的硬件占用对于高效的长序列生成至关重要。一个关键瓶颈是 key-...
基于Transformer的大型语言模型展现了上下文学习能力,使其能够通过少样本提示和示例来适应下游任务。在实践中……
我们提出了 MTRAG-UN,这是一项用于探索多轮检索增强生成(multi-turn retrieval augmented generation)中的开放挑战的基准,后者是大型语言模型的热门应用。我们发布了 …
多语言大型语言模型(LLM)评估的可靠性目前受到翻译基准质量不一致的影响。现有的...
苏美尔文字转写是一种传统系统,用于用拉丁字母表示学者对泥板的解释。多亏了有远见的数字亚述…
我们研究如何进行推理,以访问存储在语言模型参数中的世界知识。例如,回忆堪培拉是澳大利亚的首都可能有益……
开源原生 GUI 代理在长期导航任务上仍落后于闭源系统。这一差距源于两个限制:高‑q…
在过去的二十年里,Question Answering(QA)系统的设计和实现取得了显著进展。然而,针对复杂的…