[Paper] 从行业声称到实证现实:对 Pull Requests 中 Code Review Agents 的实证研究
自主编码代理正以前所未有的规模生成代码,仅 OpenAI Codex 在两个月内就创建了超过 400,000 个 pull request(PR)。随着代理……
4611 posts from this source
自主编码代理正以前所未有的规模生成代码,仅 OpenAI Codex 在两个月内就创建了超过 400,000 个 pull request(PR)。随着代理……
我们从 reliability aware perspective 研究 low resource abstractive summarization 的 multiteacher knowledge distillation。我们引入 EWAD(Entropy Weighte...)。
通过升级视觉编码器来扩展视觉‑语言‑动作(VLA)模型,预计能够提升下游操作性能——正如它在视觉‑语言模型中所表现的那样……
Transformer 注意力对值执行一次 softmax 加权平均——一种单遍估计,无法自行纠正错误。我们引入 gradient‑bo...
一般具备能力的智能体必须通过经验学习,以在任务和环境之间实现泛化。学习的基本问题,包括 credi…
机器人操作需要理解环境的3D空间结构及其时间演化,但大多数现有策略忽视了其中之一……
在本文中,我们提出了 Precision-Informed Semantic Modeling(PRISM),一种结合丰富表征优势的结构化主题建模框架……
近期强化学习(RL)在大型推理模型中的成功,激发了人们对在后训练的多模态大型语言模型中采用 RL 的日益增长的兴趣。
在无人机(UAV)图像中的目标检测仍然是一项极具挑战性的任务,主要是由于背景噪声的复杂性和不平衡……
大型语言模型和深度研究代理提供引用 URL 来支持它们的主张,但这些引用的可靠性尚未系统地……
大型语言模型结合网络搜索正日益被用于科学出版代理,但它们仍然会生成包含普遍字段级错误的 BibTeX 条目……
近期在 Vision Language Models(VLMs)方面的进展展示了朝向真正智能的进步,这需要强大的推理能力。Beyond pat...
我们提出一种方法,在大型语言模型的表示中识别 valence‑arousal (VA) 子空间。基于 211k 情感标注文本,我们推导情感……
工业软件开发在芯片设计、GPU 优化和嵌入式系统方面缺乏专家推理痕迹,显示工程师如何推理困难……
Multi-agent LLM 应用将执行组织为同步回合,在这些回合中,central scheduler 收集所有代理的输出并重新分配组合后的 …
大型语言模型(LLMs)在自动程序修复方面效果显著,但能够通过完整测试套件的合理补丁往往会重写比必要更多的代码……
LLM 代理越来越多地将技能作为可复用的组成单元。虽然技能在不同的代理平台之间共享,但当前系统将它们视为 ra...
对 replicated data systems 的 consistency models 进行推理是一项具有挑战性的任务,需要对 consistency models 本身有深入的理解……
这些论文集收录了在第七届真实系统形式分析模型研讨会(MARS 2026)上发表的论文,会议于12月……
背景:众所周知,开发人员在理解 source code 上花费了大量时间,能够自动识别……
Memory-disaggregated key-value (KV) 存储由于其 I/O 冗余问题而遭受严重的性能瓶颈。大量冗余 I/O 正在…
联邦学习(Federated learning, FL)使跨组织的协作训练成为可能,而无需共享原始数据,但它受到统计异质性(非 i.i.d.)的阻碍……
多模态大型语言模型(MLLMs)实现了强大的跨模态推理能力,但带来了巨大的计算和延迟负担,导致关键…
扩展现实(XR)的进步正在推动元宇宙的发展,元宇宙需要高效的实时将2D场景转换为3D对象……
我们开发了一种基于 sketch 的因子约简和一种 Nesterov 加速的投影梯度算法 (NPGA),并使用 GPU 加速,实现了双重加速的 …
自动化 C-to-Rust 迁移对于在不牺牲性能的前提下提升软件安全至关重要。传统的 rule-based 方法在处理多样化的……
我们展示了用于 PCA 的误差门控 Hebbian 规则(EGHR-PCA),这是一种在高斯输入下等价于 Oja 子空间规则的三因子学习规则,可以被系统...
从云端托管的 Large Language Models(LLMs)转向本地部署的开源 Small Language Models(SLMs)使得 AI 辅助编码实现了民主化;然而……
图神经网络(GNNs)被广泛用于在来自各种真实场景的图数据集上进行学习。对极其大型的图进行学习需要……
我们引入了一种 wavelength-multiplexed、massively parallel 的 diffractive information storage 平台,由结构优化的 dielectric surfaces 组成……
我们引入混沌控制的 Reservoir Computing(cc‑RC)用于活体神经培养物:这些动态丰富的基底在自适应计算方面具有独特的潜力。
我们提出 EventHub,一个用于训练深度事件立体网络的创新框架,无需来自昂贵主动传感器的真实标注,而是依赖于 s...
将 generative inverse 和 forward rendering 扩展到真实世界场景时,受限于现有 synthetic data 的逼真度和 temporal coherence 的不足,成为瓶颈。
我们提出了 ModMap,这是一种原生多视角和多模态的 3D 异常检测与分割框架。不同于现有的将视角独立处理的方法……
预训练的视觉Transformer(ViTs),例如 DINOv2 和 MAE,提供通用的图像特征,可用于各种下游任务,例如检索…
语言模型(LMs)正日益通过新增可学习的词汇标记来扩展,以用于领域特定任务,例如生成式推荐中的 Semantic-ID 标记……
高质量的3D avatar modeling 面临着 fidelity 与 generalization 之间的关键权衡。一方面,multi-view studio data 能够实现 high-fidelity …
当面对允许大量有效答案的提示时,全面生成它们是满足广泛用户的第一步....
无需训练的 Vision-Language Navigation (VLN) 代理由 foundation models 驱动,能够遵循指令并探索 3D 环境。然而,现有的 approa...
近期的流媒体视频理解方法日益依赖复杂的记忆机制来处理长视频流。我们用一种简单的…来挑战这一趋势。
神经网络场论将场论表述为由网络架构和参数密度定义的场的统计集合。我们……
双随机矩阵使得在 residual streams 之间进行学习式混合成为可能,但对双随机矩阵集合(Birkhoff polytope)的参数化是精确的……
现有的视频对象移除方法在对对象后面的内容进行inpainting以及纠正外观层面的伪影(如阴影和反射)方面表现出色。
Softmax 在 Transformer 模型的 Multi-Head Attention(MHA)块中可能成为计算瓶颈,尤其是在小模型进行低精度推理时。
近期,多模态大型语言模型在统一的文本和图像理解与生成方面取得了强劲的性能,但要扩展这种原生能力……
强化学习与可验证奖励(RLVR)已成为后训练大型语言模型的标准范式。虽然群体相对策略优化(Group Relative Policy Optimization)……
Long-horizon 对话代理 需要 持久记忆 以实现 连贯推理,然而 不受控制的 累积 会导致 时间衰减 和 虚假记忆 的 传播……
Agentic AI 将投资者的角色从分析执行转变为监督。我们提出了一种 agentic 战略资产配置流水线,其中约 5…