[Paper] 规模化测试驱动代码生成:从函数到类的实证研究
测试驱动开发(TDD)已被采用,通过使用测试作为可执行规范来改进基于大语言模型(LLM)的代码生成。然而,...
4663 posts from this source
测试驱动开发(TDD)已被采用,通过使用测试作为可执行规范来改进基于大语言模型(LLM)的代码生成。然而,...
Flaky tests 在对相同版本的 source code 多次执行时会产生不同的结果。因此,它们提供了关于质量的模糊信号……
异步流水线并行通过消除同步执行中固有的流水线气泡,最大化硬件利用率,提供了一条通往 e...
Mixture of Experts (MoE) 架构显著提升了 LLM 的容量,而计算量并未相应增加,但代价是巨大的参数……
一致性是分布式计算中的基础性问题,已被广泛研究超过四十年。最近,Meir、Mirault、Peleg 和 Robins……
区块链验证者可以通过利用 multi-core CPUs 来缩短区块处理时间,但 deterministic execution 必须在保持给定 total order 的同时,仍然遵守 …
去中心化学习(DL)使一组节点能够在没有中心协调的情况下协作训练模型,提供了隐私和可扩展性方面的优势……
本文研究了一个在许多网络化和分布式系统中出现的重要速率分配问题:来自多个…的稳态流量速率分配。
分布式流处理系统(Distributed Stream Processing Systems,DSPS)是字节跳动实时处理和分析的核心支柱,其中 Apache Flink 为其中最大规模的系统提供动力……
大型语言模型(LLM)辅助的算法发现是一种迭代的、黑箱的程序优化过程,用于近似求解目标任务,……
动态调度任务图通常在不重新审视先前任务分配的情况下进行,主要关注最小化 makespan。我们研究受控…
高级持续性威胁(APTs)是复杂的、长期的网络攻击,由于其隐蔽操作且常常融入…
在高度不平衡的数据集中检测稀有且多样的异常——例如网络安全中的高级持续性威胁(APTs)——仍然是一个根本性的挑战 f...
直接对齐方法正日益用于将大型语言模型(LLMs)与人类偏好对齐。然而,许多现实中的对齐问题涉及……
临床 brain-to-text 接口旨在为无法提供大量训练录音的瘫痪患者设计。预训练提升了数据高效的生成……
Pixel diffusion 直接在像素空间中端到端生成图像,避免了在两阶段潜在空间中由 VAE 引入的伪影和瓶颈……
我们提出 RLAnything,一个通过闭环优化动态锻造环境、策略和奖励模型的强化学习框架,...
基于LLM的深度研究代理主要构建在ReAct框架上。这种线性设计使得重新访问早期状态、分支到替代方案变得困难,...
RL 在 LLM 后训练中的成功源于一种极其信息不足的来源:每次 rollout 只提供一个二进制奖励或偏好的单比特信息……
Likelihood-based policy gradient 方法是从奖励训练机器人控制策略的主流方法。这些方法依赖于可微分的动作……
大型语言模型(LLMs)已经通过逐步的思考链(CoT)推理展示了强大的推理能力。然而,在极限……
AI agents 经常以难以定位的方式失败,因为执行具有 probabilistic、long-horizon、multi-agent 的特性,并且受 noisy tool outputs 的影响……
大多数大型语言模型(LLM)代理记忆系统依赖于一小套静态、手工设计的操作来提取记忆。这些固定的过程硬-...
使 humanoid robots 执行灵活且自适应的交互任务长期以来一直是 robotics 的核心挑战。当前的方法受到 eith... 的瓶颈限制。
渐进学习(Progressive Learning,PL)通过逐步扩大模型规模来降低预训练的计算开销。虽然之前的工作已经广泛探讨了深度扩展……
基于 deep learning 的 auto segmentation 正在放射治疗中日益广泛使用,但传统模型常常产生解剖上不合理的假阳性,或 h...
自回归大型语言模型(LLMs)在许多复杂任务中取得了显著成功,但它们在非常简单的逻辑推理方面仍可能失败,例如……
大型语言模型(LLMs)的快速进展引发了这些模型是否具备某种形式的意识的疑问。为了解决这一挑战,...
前沿模型正从仅仅摄取视觉信息的多模态大语言模型(MLLMs)转向统一多模态模型(UMMs),具备……
Activation decomposition methods 在语言模型中与关于概念在 activation space 中如何实现的几何假设紧密耦合。Existing appr...
随着 Large Language Models 转向 autonomous agents,用户输入经常违反合作假设(例如,隐式意图、缺失参数、错误……)。
重新排序是现代检索系统的关键组成部分,这类系统通常将高效的第一阶段检索器与更具表达能力的模型配对,以细化检索结果……
边缘AI应用对 ultra‑low‑power、low‑latency 推理的需求日益增长。基于 event‑driven spiking neural networks (SNNs) 的 Neuromorphic computing ……
我们提出 sVIRGO,一种面向大规模分布式系统的可扩展虚拟树层次框架。sVIRGO 直接在 … 上构建虚拟层次树。
统一的多模态模型在需要深度推理的复杂合成任务上常常表现不佳,且通常将 text-to-image generation 和 image editing 视为……
热带森林拥有地球上大多数树木的生物多样性,对全球生态平衡至关重要。Canopy trees 尤其发挥了不成比例的作用……
图形用户界面(GUI)对齐旨在将自然语言指令转换为可执行的屏幕坐标,从而实现自动化的 GUI 交互....
Out-of-distribution(OOD)检测对于深度神经网络的安全部署至关重要。最先进的后置(post-hoc)方法通常会推导 OOD 分数 f...
Model editing 旨在纠正大型、预训练模型中的错误,而不改变无关的行为。虽然一些近期工作已经编辑了 vision-language model……
在丰富交互下模拟可变形对象仍然是 real-to-sim 机器人操作的根本挑战,其动力学由环境等因素共同驱动。
人类动作分析任务,如 temporal 3D pose estimation、motion prediction 和 motion in‑betweening,在计算机视觉中发挥着关键作用。然而...
我们提出了 SWE-Universe,一个可扩展且高效的框架,用于自动构建来自 Gi… 的真实世界软件工程(SWE)可验证环境。
Hierarchical federated learning(HFL)已成为大规模无线和物联网系统的关键架构,设备在其中与 …
对局部可检查标记(Locally Checkable Labelings,LCLs)的研究已经导致对有界‑…上可能出现的分布式时间复杂度进行了极其精确的刻画。
GP-GOMEA 是符号回归领域的最先进技术之一,尤其在寻找小规模且可能可解释的解方面表现突出。关键机制……
持续集成(CI)被广泛用于对代码更改提供快速反馈;然而,CI 构建结果并不总是可靠的。构建可能会间歇性地失败。
如今,neural networks 已经成为 artificial intelligence 的代名词。当前的 neural network 模型虽然非常强大,但在 ... 方面效率低下。
近期在 LLMs 方面的进展已在各种 AI 应用中取得了重大突破。然而,它们的复杂能力也带来了严重的 sa...