[Paper] 无记忆,无检测:基于输出分布的小语言模型污染检测
CDD(Contamination Detection via output Distribution),通过测量模型采样输出的峰度来识别数据污染。我们研究了……
CDD(Contamination Detection via output Distribution),通过测量模型采样输出的峰度来识别数据污染。我们研究了……
Omni-modal 大语言模型(omni LLMs)最近在视听理解任务上取得了强劲的表现,但它们仍然高度易受…
自动化工业优化建模需要将自然语言需求可靠地转换为 solver‑executable code。然而,large language models ...
在可验证的符号数据上进行训练是扩展语言模型推理能力边界的有前景的方法,超越标准预训练语料库所能提供的范围。Y...
Test-time reinforcement learning (TTRL) 已成为自我进化的大型推理模型 (LRMs) 的一种有前景的范式,使其能够在未标记的数据上进行在线适应。
Claude 代理技能的快速激增提出了一个核心问题:如何有效利用、管理和扩展代理技能生态系统。
检索增强生成(Retrieval‑Augmented Generation,RAG)系统通常采用检索融合技术,例如多查询检索和倒数排名融合(reciprocal rank fusion,RRF)来增加……
从与犯罪相关的文档中提取关键信息是执法机构的一项关键任务。命名实体识别 (NER) 可以执行……
强化学习与可验证奖励(RLVR)通过对大型语言模型(LLMs)进行优化,显著提升了它们的推理能力……
大型语言模型(LLMs)正日益被提出作为战略决策环境中的代理,但它们在结构化的地缘政治模拟中的行为仍然……
现代语言模型在有界上下文中进行推理,这一固有约束对长期推理构成了根本障碍。我们识别 recursion a...
Think-Answer 推理器(如 DeepSeek‑R1)通过利用可解释的内部推理取得了显著进展。然而,尽管经常出现……