[Paper] OmniCode:评估软件工程代理的Benchmark
LLM 驱动的编码代理正在重新定义真实世界软件的开发方式。为了推动对更好编码代理的研究,我们需要具有挑战性的基准……
4663 posts from this source
LLM 驱动的编码代理正在重新定义真实世界软件的开发方式。为了推动对更好编码代理的研究,我们需要具有挑战性的基准……
在实际应用中部署预训练策略面临巨大的挑战,这些挑战从根本上限制了基于学习的方法的实际适用性……
最先进的 AI deep potentials 提供了 ab initio-quality 的结果,但其计算成本仅为 first-principles quantum mechanical calculations 的一小部分。
Any-to-any multimodal models 能够同时处理文本、图像、视频和音频,代表了多模态 AI 的重要进展。然而,它们复杂的架构……
强化学习(RL)是后训练大型语言模型(LLMs)的关键阶段,涉及在 rollout 生成、reward …之间的反复交互。
TriCloudEdge 是一个可扩展的三层云连续体,集成了 far‑edge 设备、intermediate edge 节点和 central cloud 服务,并行工作……
冠状动脉狭窄是心血管疾病的主要原因之一,通过分析多视角血管造影中的冠状动脉进行诊断。虽然 nu...
自动驾驶车辆缺乏与其他道路使用者的自然沟通渠道,这使得外部人机界面(eHMIs)在传达意图方面变得至关重要……
对大型语言模型(LLM)的爆炸性需求常常导致用户查询在服务器队列中积压,需要高效的路由(query‑LLM matching)和调度(query priority…)。
多模态基础模型整合跨模态的异构信号,但它们的预测如何依赖于特定的内部……
超快在线学习对于高频系统至关重要,例如 quantum computing 和 nuclear fusion 的控制,其中适应必须在 sub...
在 Internet-of-Things 系统中,federated learning 通过实现 parallel policy training 而无需共享 raw data,推动了 online reinforcement learning (RL) 的发展……
基于图的检索增强生成(GraphRAG)将外部知识组织为层次化图结构,实现对分散知识的高效检索和聚合。
Text-to-image diffusion models 已经彻底改变了 generative AI,实现了高质量和 photorealistic 的图像合成。然而,它们的实际部署 …
使用 4 位算术训练大语言模型可以提升吞吐量和内存效率。然而,FP4 的有限动态范围会增加对 … 的敏感性。
扩散模型最近作为贝叶斯逆问题(BIPs)的强大学习先验出现。基于扩散的求解器依赖于假设的似然函数……
relational data 的日益可获得性促使人们对 complex systems 的 network-based representations 越来越依赖。随着时间的推移,这些模型…
对具备代理性的语言模型(Agentic Large Language Models)的期望不仅仅是正确回答,还要求它们具备设定目标和决定探索内容的自主性。我们将此称为 i...
广告图像生成越来越关注在线指标,如点击率(CTR),但现有方法采用“一刀切”的策略……
我们通过尺度空间理论在 wavelet transforms 与 spiking neural networks 之间建立了理论联系。我们依赖于尺度协变的保证……
近期的基因组基础模型在很大程度上采用大型语言模型架构,将DNA视为一维 token 序列。然而,穷尽的...
大型推理模型(LRMs)常常出现过度思考的现象,即在已经得到正确答案后仍生成冗余的推理步骤……
大型多模态推理模型通过显式的长链推理解决具有挑战性的视觉问题:它们从图像中收集视觉线索,并将线索解码为…
World models 已经在自动驾驶的数据合成方面展示了显著的潜力。然而,现有方法主要集中在单模态……
从稀疏图像重建3D场景仍然是一项具有挑战性的任务,因为在没有优化的情况下难以恢复准确的几何形状和纹理。R...
Neuromorphic 硬件实现的 Spiking Neural Networks (SNNs) 通过稀疏、事件驱动的计算,承诺实现能效高、低延迟的 AI。然而,...
跨分区边在分布式 GNN 训练中的成本占主导:每次迭代获取远程特征和激活会使网络负荷过重,因为图 ...
Federated Unlearning (FU) 旨在高效地从联邦模型中移除特定客户端数据的影响,同时保持对其余客户端的效用。
基于遗传编程的特征构造近年来取得了显著成功,作为一种自动化机器学习技术,用于提升学习 p...
我们提出一种神经形态求解器,用于解决 NP-hard Edge User Allocation 问题,采用具有 Winner-Takes-All (WTA) 机制的吸引子网络实现 …
由于差分进化(DE)对策略选择非常敏感,现有的大多数变体通过自适应机制或复杂设计来追求性能。W...
虽然最近的视频扩散模型(VDMs)产生了视觉上令人印象深刻的结果,但它们在保持3D结构一致性方面根本存在困难,往往导致……
共享自治系统需要原则性方法来推断用户意图并确定适当的辅助水平。这是人类...的核心挑战。
开放集目标检测(Open-set object detection,OSOD)在推理时定位对象的同时,识别并拒绝未知类别。虽然最近的 OSOD 模型在基准测试中表现良好……
我们提出一种在函数空间中针对逆PDE问题的数据高效、物理感知的生成框架。现有的 plug‑and‑play diffusion posterior samplers …
Diffusion Large Language Models(DLLMs)提供了一种有吸引力的替代方案,相较于 Auto‑Regressive 模型,但它们的部署受到高解码成本的限制。 在 ...
Astronomical imaging 在实际 observing constraints 下仍然是 noise‑limited 的,而 standard calibration pipelines 主要去除 structured artifacts 和 le...
本文提出了一种新颖的逆强化学习框架,使用基于扩散的自适应前瞻规划器(IRL-DAL)用于自动驾驶车辆。训练……
尽管基于语言模型的自主 AI 科学家取得了快速进展,生成可用于出版的插图仍然是一个劳动密集型的瓶颈。
我们提出了一种引导式随机采样方法,在扩散模型的采样过程中加入了基于物理的指导,来源于偏微分方程。
Muon优化器通过执行矩阵级别的梯度(或动量)正交化,在预训练大型语言模型方面展示了强大的实证性能。
最近关于 language identification 和 generation 的研究已经确定了实现这些任务的紧密统计速率。这些工作通常…
在大型 repositories 中进行 software issue resolution 是一个长期的决策过程:在 localization 期间做出的选择会塑造可行 edits 的空间,而失误……
大型音频语言模型日益直接处理原始语音输入,使其能够在语音助手、教育等领域实现更无缝的整合……
仓库级代码补全对大型语言模型(LLMs)仍然具有挑战性,因为存在跨文件依赖和有限的上下文窗口。先前的工作添加了……
视觉语言模型在领域迁移下性能下降,限制了其在真实世界中的适用性。现有的测试时适应方法在计算上……
Model comparison 和 calibrated uncertainty quantification 通常需要对参数进行积分,但对于复杂的、多…
Vision-language models (VLM) 在标准视频理解基准上表现出色,但在简单推理任务上系统性地失败……