[Paper] CodeSpecBench:对LLMs进行可执行行为规范生成的基准测试
大型语言模型(LLMs)可以根据自然语言生成代码,但它们在多大程度上捕捉到预期的程序行为仍不清楚。Executable...
大型语言模型(LLMs)可以根据自然语言生成代码,但它们在多大程度上捕捉到预期的程序行为仍不清楚。Executable...
利用诸如大五人格等心理构念,大语言模型(LLMs)可以模仿特定的个性特征并预测用户的个性。Wh...
语言变化既反映又塑造社会过程,而基础概念的语义演变提供了历史和社会的可衡量痕迹。
视觉语言模型(VLMs)仍然在视觉感知任务(如空间理解和视点识别)上表现困难。一个可能的促成因素是...
大型视觉语言模型(LVLMs)在多模态推理方面表现出色,但常常出现幻觉并以高度确定性给出错误答案,……
近期在大型语言模型(LLMs)方面的进展使得大规模生成高度流畅且具欺骗性的类新闻内容成为可能。虽然之前的研究已经……
Norm,形式理论语言学家,和 Claudette,计算语言科学家,愉快地讨论现代语言模型是否能够……
我们提出了 RecaLLM,这是一套经过后训练的推理语言模型,旨在有效利用长上下文信息。In‑context retrieval(上下文检索),用于识别……
多模态混合专家(MoE)模型在视觉语言任务上取得了显著的性能。然而,我们发现了一种令人困惑的现象,称为 Seei…
Text-to-Audio-Video (T2AV) 生成正迅速成为媒体创作的核心接口,但其评估仍然碎片化。现有基准在很大程度上…
Group Relative Policy Optimization (GRPO) 已成为推动最近在多模态大型语言模型领域进展的事实上的强化学习 (RL) 目标。
On-policy distillation (OPD) 在学生模型自身产生的分布下进行训练,同时利用更强教师的监督。我们识别出一个失败…
当今的大型语言模型(LLMs)通过强化学习等方法进行训练,以对齐用户偏好。然而,模型正开始被 d...
将 steering vectors 应用于大型语言模型(LLMs)是一种高效且有效的模型对齐技术,但我们缺乏可解释的说明。
AI agents 可能能够自动处理你的 inbox,但它们能否自动化你生活中的其他常规方面?日常在线任务提供了一个现实且尚未解决的测试…
大型语言模型(LLMs)在参数中记忆事实知识时可能会遇到困难,这常常导致幻觉并在知识密集型任务上表现不佳。
大型语言模型(LLMs)能够执行极其复杂的任务,然而这些能力在预训练过程中如何出现的细粒度细节仍然了解不足。
我们在不同性约束下,开启对语言生成极限模型的研究,该模型由 Kleinberg 和 Mullinathan [KM24] 最近提出。
科学目前提供了两种质量保证的选项,但都不够充分。期刊把关声称能够验证完整性和贡献,实际上……
Prompt injection attacks 在广泛的实际应用中构成严重的安全风险。尽管受到越来越多的关注,社区仍面临……
Qwen/Qwen3-Reranker-0.6B - 任务:文本排序 - 参数…
多元对齐已成为大型语言模型(LLMs)发展中的关键前沿,奖励模型(RMs)作为核心机制……
低资源语言对使用大型语言模型(LLMs)的机器翻译构成挑战,因为这些模型需要大量的训练数据。一个潜在的 w...
空间理解是人类水平智能的根本基石。然而,当前的研究主要集中在特定领域的数据……
关于人工智能(AI)在教育中的辩论常常将教学描绘为一种模块化和程序化的工作,且这种工作可以越来越多地被自动化或委派给……
临床专业技能的提升不仅来自于获取医学知识,还来自于积累能够产生可复用诊断模式的经验。近期基于LLMs的 ...
随着大型语言模型(LLMs)越来越多地在敏感用户数据上进行训练,理解隐私在语言学习中的基本代价变得至关重要。
随着大型语言模型(LLMs)从静态聊天机器人演变为自主代理,主要的漏洞面从最终输出转向中间……
科学文献的快速增长使研究人员越来越难以高效地发现、评估和综合相关工作。Re...
静态的“train then deploy”范式从根本上限制了大型语言模型(LLMs)在面对持续的…
MLLMs 已成功应用于多模态嵌入任务,但它们的生成推理能力仍未得到充分利用。直接将 cha...
是否大型语言模型(LLMs)能够形成连贯的内部世界模型仍是核心争论。传统的下一标记预测(Next-Token Prediction,NTP)侧重于单个……
大型语言模型(LLM)代理正日益在多代理环境中充当人类代表,在这种环境中,代表代理整合多样的同行…
现代基于Transformer的语言模型在自然语言处理任务中表现出色,但它们的潜在语义空间仍然在很大程度上未被……
人格特质在自然语言中被丰富地编码,而在人工文本上训练的大型语言模型(LLMs)在以提示为条件时可以模拟人格。
Web 应用程序在很大程度上依赖超链接来连接不同的信息资源。然而,网络的动态特性导致链接腐烂(link rot),即目标…
我们提出 MegaTrain,这是一种以 memory-centric 为核心的系统,能够在单个 GPU 上以 full precision 高效训练 100B+ 参数的大型语言模型。不同于传统的……
在大型语言模型(LLMs)中进行扩展推理会导致严重的 KV 缓存内存瓶颈。领先的 KV 缓存压缩方法使用…来估计 KV 重要性。
要构建一个能够跨图表、科学、空间理解和开放式任务的 visual reasoner,需要什么条件?最强大的 vision-language model……
专有 AI 系统最近在复杂的基于证明的问题上展示了令人印象深刻的能力,据报道在 2025 Inte... 中实现了 gold-level performance。
可验证奖励的强化学习(RLVR)显著提升了大型语言模型(LLMs)的推理能力。然而,它面临着…
随着大型语言模型代理从软件工程(SWE)任务向机器学习工程(MLE)迈进,验证代理行为变得……
我们介绍 Full-Duplex-Bench-v3 (FDB-v3),这是一套用于在自然语音条件下评估口语语言模型以及多步骤工具使用的基准。Unli...
神经机器翻译(NMT)从中文到低资源的东南亚语言仍受到干净平行语料极度稀缺的严重限制。
所有先前针对微调语言模型的成员推断攻击都使用手工设计的启发式方法(例如,loss thresholding、Min‑K%、reference calibration),每……
我们从 reliability aware perspective 研究 low resource abstractive summarization 的 multiteacher knowledge distillation。我们引入 EWAD(Entropy Weighte...)。
在本文中,我们提出了 Precision-Informed Semantic Modeling(PRISM),一种结合丰富表征优势的结构化主题建模框架……
大型语言模型和深度研究代理提供引用 URL 来支持它们的主张,但这些引用的可靠性尚未系统地……