· ai
[Paper] 自信的幻觉?通过邻域一致性诊断 LLM 真实性
随着大型语言模型(LLMs)在真实世界环境中日益部署,仅仅正确性已不足以满足需求。可靠的部署需要保持 tr...
随着大型语言模型(LLMs)在真实世界环境中日益部署,仅仅正确性已不足以满足需求。可靠的部署需要保持 tr...
大型语言模型(LLM)路由旨在利用不同 LLM 在多样任务中的专门优势。然而,现有方法通常侧重于…
偏好调优通过对显式偏好信号进行优化,使预训练语言模型与人类对质量、帮助性或安全性的判断保持一致,而不是……
我们推出 AutoMonitor‑Bench,这是第一个旨在系统评估基于 LLM 的不当行为监控器在多样任务中可靠性的基准。
随着语言模型的能力日益提升,用户期望它们不仅提供准确的响应,还能表现出符合多样化人类偏好的行为……
我们使用机器学习和人工智能:1)从新闻和社交媒体中衡量各国的和平水平;2)开发在线工具,以……
大型视觉语言模型(VLMs)功能强大,但常常因偏向文本提示而非视觉证据而产生幻觉。我们在……中研究了这种失效模式。
实体链接(将文本中模糊的提及映射到知识库中的实体)是诸如知识图谱构建、问答等任务的基础步骤。
大型语言模型(LLMs)的快速发展引发了对使用合成数据训练未来模型的日益兴趣。然而,这会产生自我‑c...
现有的长期个性化对话系统在调和无限的交互流与有限的上下文约束方面遇到困难,常常因 memory...
自然语言推理(NLI)一直是评估语言模型在自然语言理解方面的重要任务,但其逻辑属性……
大型语言模型(LLMs)在复杂推理方面常常受到高计算成本和延迟的阻碍,而资源高效的 Small Language Models (SL...