[Paper] SCORE:特异性、上下文利用、鲁棒性和相关性用于无参考 LLM 评估
大型语言模型(LLMs)正日益用于在高风险、特定领域的环境中支持问答和决策,例如 natural ha...
大型语言模型(LLMs)正日益用于在高风险、特定领域的环境中支持问答和决策,例如 natural ha...
越南语采用音位正字法,每个 grapheme 最多对应一个 phoneme,反之亦然。利用这种高度的 grapheme‑phoneme 透明性……
GUI-enabled agents的快速演进已经使传统的CAPTCHA变得过时。虽然之前的基准测试如OpenCaptchaWorld为…
隐私是一项维系患者-提供者信任的人权。临床记录捕捉患者的私人脆弱性和个体性,这些被用于...
Computer-use agents (CUAs) 在过去一年取得了巨大的进展,但它们仍然经常产生偏离用户原始意图的误对齐行为。
我们提出了下一概念预测(Next Concept Prediction,NCP),一种建立在下一标记预测(Next Token Prediction,NTP)之上的生成式预训练范式。NCP 预测离散概念,...
规划已成为当代智能体系统在处理复杂、长时程任务时的核心能力,然而现有方法主要依赖于……
Chain-of-Thought 推理被广泛用于提升多模态大语言模型 (MLLMs) 的可解释性,然而生成的推理的忠实性……
尽管最先进的 LLM 能够解决数学问题,但我们发现它们在混合表示法的数值比较上会出错:“Which is larger, 5.7 times …”。
大型推理模型通过扩展推理时的 chain-of-thought 实现了强大的性能,但这种范式面临二次成本、上下文长度限制……
Tokenization 是神经语言建模在形态丰富语言(MRLs)如土耳其语中的关键设计选择,因为该语言具有高度的生产性黏着构词。
我们研究了大语言模型(LLMs)在多目标对齐中的一种持续性失效模式:训练仅在部分目标上提升性能……