[Paper] Reference Games 作为模型不确定性与澄清请求对齐的测试平台
在人类对话中,双方对话者(interlocutors)都积极参与维持相互理解。当听者(addressees)对说话者(speakers)的意思不确定时,例如……
在人类对话中,双方对话者(interlocutors)都积极参与维持相互理解。当听者(addressees)对说话者(speakers)的意思不确定时,例如……
在敏感领域中对大型语言模型(LLMs)的使用日益增加,导致人们对其置信分数与公平性和偏见之间的对应关系产生了越来越大的兴趣……
大型语言模型(LLMs)正日益被用作学习的对话伙伴,然而支持用户学习和参与的互动动态……
大型语言模型(LLMs)越来越多地被评估其执行多跳推理的能力,即将多个信息片段组合成……
LLM agents 在庞大且动态的 tool libraries 上运行,依赖有效的检索,然而标准的 single-shot dense retrievers 在处理复杂请求时表现乏力……
虽然Chain-of-Thought(CoT)提示提升了LLM的推理能力,但在一致性、准确性和自我纠正方面仍然存在挑战,尤其是针对复杂或伦理…
虽然 Vision-Language Models(VLMs)显著推动了 Computer-Using Agents(CUAs)的发展,但当前框架在长时程工作流的鲁棒性方面仍然存在困难……
大型语言模型(LLMs)能够产生出令人惊讶的相当复杂的自身不确定性估计。然而,仍然不清楚这种表达的程度……
理解叙事需要识别哪些事件对故事进展最为突出。我们提出了一种对比学习框架用于建模……
数值推理是金融文档分析中的重要任务。它有助于理解并进行具有逻辑一致性的数值预测。
我如何使用 n8n 构建用于学习普通话的 AI 学习伙伴:词汇、听力和发音纠正。文章《How AI Can Become Your Personal L...》
查看不同管道的性能 《何时添加花哨的 RAG 功能有效?》 首发于 Towards Data Science....