· ai
[Paper] DEER:一个全面且可靠的深度研究专家报告基准
随着大语言模型(LLMs)的进步,深度研究系统可以通过多步骤推理和基于证据的综合生成专家级报告,但评估……
随着大语言模型(LLMs)的进步,深度研究系统可以通过多步骤推理和基于证据的综合生成专家级报告,但评估……
医学实体识别(Medical Entity Recognition,MedER)是从医学语料库中提取有意义实体的关键自然语言处理(NLP)任务。如今,基于 MedER 的研究成果……
对古代文本的理解在考古学以及对中国历史和文明的认识中发挥着重要作用。大型语言模型的快速发展……
在计算情感科学和计算社会科学领域的工作探索了关于人、情感、行为以及健康的广泛研究问题。
用户生成内容(UGC)的特点是频繁使用非标准语言,从拼写错误到诸如俚语、字符重复等表达选择……
我们探索贝叶斯推理作为在问答任务中量化神经网络不确定性的一种手段。首先在 Iris 数据集上使用多层感知器……
当整个领域在急于追逐一次突破的过程中忘记了它所学的一切,会发生什么?AI 社区正经历集体失忆。We'r...
虽然端到端 (E2E) 自动语音识别 (ASR) 模型在通用转录方面表现出色,但它们在识别稀有或未见过的命名实体(例如…)时仍然困难重重。
流式语音转文本翻译(StreamST)需要在语音输入的同时生成翻译,施加严格的延迟约束并且要求…
像 SWE-bench 这样的基准已经标准化了对大型语言模型(LLMs)在仓库级软件工程任务上的评估。然而,这些努力...
Large Language Models (LLMs) 正在越来越多地应用于真实场景的代码生成,在这种情况下,仅有功能正确性不足以实现可靠部署,……
Large language models (LLMs) 具备显式推理能力,在数学推理方面表现出色,但仍会出现过程错误,例如计算错误……