· ai
[Paper] 流畅对齐与不流畅评判者:低资源语言的后训练
我们提出了一种针对低资源语言的后训练方法,即使在使用不流畅的奖励模型进行对齐时,也能保持语言模型的流畅性。Preference...
我们提出了一种针对低资源语言的后训练方法,即使在使用不流畅的奖励模型进行对齐时,也能保持语言模型的流畅性。Preference...
自动手语识别(ASLR)已成为弥合聋人与听人社区之间鸿沟的关键领域。然而,手势的……
本文介绍了首个公开可用的巴斯克语自动作文评分(AES)和反馈生成数据集,针对CEFR C1水平……
临床沟通是患者结果的核心,但大规模人工标注患者-提供者对话仍然劳动密集型且不一致,...
我们介绍 QSTN,这是一款开源的 Python 框架,用于系统地从问卷式提示生成响应,以支持 in-silico 调查和 ann…
大型语言模型(LLM)的分布外(OOD)泛化能力对其部署至关重要。先前的研究评估LLM的泛化……
我们提出了 GRAPE(Group RepresentAtional Position Encoding),一个基于群作用的统一位置编码框架。GRAPE 将两类……
LLM-based agents 正在快速被接入专家决策支持系统,但在混乱且高风险的环境中,它们很少让团队更聪明:人机团队的……
大型语言模型(LLMs)正日益被部署在需要推理的场景中,例如多步骤问题求解和 chain-of-thought。 然而,...
近期的强化学习(RL)技术在语言模型中取得了显著的推理提升,但仍不清楚后训练的……
利用一组配对叙事的数据集,我们研究大型语言模型(LLMs)在可靠区分不连贯和连贯故事方面的程度……
在上市前药物安全性审查中,将相关不良事件术语分组为标准化的 MedDRA 查询或 FDA 新药办公室自定义医学查询(O...)。