· ai
[Paper] DocDancer:迈向 Agentic 文档驱动的信息检索
文档问答(DocQA)专注于基于给定文档回答问题,但现有的 DocQA 代理缺乏有效的工具利用和……
文档问答(DocQA)专注于基于给定文档回答问题,但现有的 DocQA 代理缺乏有效的工具利用和……
针对作物病害分析的 Visual Question Answering 需要准确的视觉理解和可靠的语言生成。本工作提出了一种轻量级的 vi...
最近在语言模型(LMs)方面的进展推动了各种软件工程任务的显著进步。然而,现有的LMs仍然在 compl...
我们介绍了 RFC Bench,这是一项用于在真实新闻环境下评估大型语言模型在金融误信息方面表现的基准。RFC Bench 在段落层面运行。
语言模型在广泛的任务上已经变得非常有效,从数学问题求解到开放域问答。然而,它们仍然会犯错误,...
我们提出了 LLMberjack,一个基于现有辩论(最初以 reply trees 结构)创建多方对话的平台。该系统提供……
大型语言模型(LLMs)在预训练期间编码了大量的参数化知识。随着世界知识的演变,有效的部署越来越依赖……
代表用户与图形界面交互的 GUI 代理代表了实用 AI 助手的一个有前景的方向。然而,训练此类代理……
语言模型经常表现出倾向于使用输入中特定位置的信息,而不考虑语义相关性。虽然位置偏差已经…
最近,人们在开放和知识密集型任务中经历了痛苦,并日益意识到LLMs的不可靠性差距,因此转向搜索增强……
为减轻大型语言模型(LLMs)中的幻觉,我们提出了一个聚焦于提示引发错误的框架。我们的方法扩展了链式 k...
Large Multimodal Models (LMMs) 已展示出在通过 Chain-of-Thought (CoT) 进行视频推理方面的惊人能力。然而,它们推理的鲁棒性…