· ai · - · -
[Paper] 权重衰减提升语言模型可塑性
在大型语言模型(LLM)开发中,主流范式是先对基础模型进行预训练,然后进行进一步的训练以提升性能和模型……
在大型语言模型(LLM)开发中,主流范式是先对基础模型进行预训练,然后进行进一步的训练以提升性能和模型……
扩散语言模型通过迭代细化生成文本,这一过程通常计算效率低下,因为许多标记在达到稳定状态后……
误信息检测是一项关键任务,能够显著受益于外部知识的整合,就像人工事实核查一样。在本...
基于强化学习(RL)的后训练用于显式链式思考(例如 GRPO)提升了多模态大规模推理模型的推理能力。
大型语言模型(LLMs)中的错位指的是未能同时满足安全、价值和文化维度的要求,导致模型产生偏离预期的行为。
大型语言模型(LLMs)展示了强大的通用推理和语言理解能力,但在受严格形式约束的领域中,它们的性能会下降。
大型语言模型(LLM)代理在自动化教学系统设计(ISD)方面展现出有希望的潜力,教学系统设计是一种系统化的教育开发方法……
语言模型已成为量子计算教育和研究的实用工具,从摘要技术论文到解释理论概念等。
RAG TREC Instrument for Multilingual Evaluation (RAGTIME) 赛道在 TREC 的主要目标是研究从多语言源文档生成报告……
验证主张的真实性通常需要对文本和视觉证据进行联合多模态推理,例如分析文本标题……
大型语言模型(LLMs)正日益用于在高风险、特定领域的环境中支持问答和决策,例如 natural ha...
越南语采用音位正字法,每个 grapheme 最多对应一个 phoneme,反之亦然。利用这种高度的 grapheme‑phoneme 透明性……