· ai · - · -
[Paper] 自我改进的多语言长推理通过翻译-推理集成训练
长推理模型在多语言环境中常常遇到困难:它们倾向于对非英语问题使用英语进行推理;当被限制在...
长推理模型在多语言环境中常常遇到困难:它们倾向于对非英语问题使用英语进行推理;当被限制在...
多项选择题(MCQs)常用于评估大型语言模型(LLMs)中编码的知识、推理能力,甚至价值观。虽然...
DARWIN 是一种进化型 GPT 模型,利用类似遗传算法的优化结构,对多个独立的 GPT 代理进行单独训练……
ArkTS 是 OpenHarmony 生态系统中的核心编程语言,但对 ArkTS 代码智能的研究受到缺乏公开数据集和评估的阻碍。
通过强化学习(RL)进行后训练已显著提升了大语言模型(LLMs)的推理能力,尤其是在测试时的规模扩展方面。然而,扩展…
强化学习(RL)已成为微调大型语言模型(LLMs)的基石,近端策略优化(PPO)作为事实上的…
训练现代大型语言模型(LLMs)已成为一个名副其实的大杂烩,汇集了旨在引发特定行为的各种算法和数据集,使其…
从生成标题到捏造新闻,Large Language Models (LLMs) 通常在安全假设的前提下,通过它们的最终输出进行评估。
大型语言模型在闭卷问答中常常难以识别自身的知识限制,导致自信的幻觉。虽然分解...
大型语言模型(LLMs)的快速增长已经超出了单GPU硬件的演进速度,使得模型规模越来越受到内存容量的限制。
真正的自我进化要求代理人作为终身学习者,内化新颖的经验以解决未来的问题。然而,严格衡量这一点……
Omni-modal Large Language Models (Omni-LLMs) 已经展示了在音视频理解任务中的强大能力。然而,它们对长多模态……