[Paper] 1001 LoC的故事:潜在运行时错误引导的规范合成用于验证大规模程序
对大规模软件和硬件系统进行全自动验证可以说是形式化方法的圣杯。大型语言模型(LLMs)最近…
4750 posts from this source
对大规模软件和硬件系统进行全自动验证可以说是形式化方法的圣杯。大型语言模型(LLMs)最近…
大型语言模型(LLMs)在代码生成方面取得了显著进展,这在很大程度上得益于高质量代码数据集的可用性,从而实现了有效的预训练。然而,现有的代码语料库通常是从公共代码仓库(例如 GitHub)收集的,可能包含大量低质量或噪声代码,这会削弱 LLM 的性能。本文提出了一种新颖的方法,能够自动过滤大规模代码语料库中的低质量代码,从而提升 LLM 训练数据的质量。我们的方法结合了静态分析、动态测试以及社区反馈信号来评估代码质量。具体而言,首先使用静态分析工具检测语法错误、潜在 bug 和代码异味;随后在沙箱环境中运行代码,并利用自动生成的测试用例评估运行时行为和正确性;最后,结合原始仓库的社区反馈,如 star 数、fork 数和 issue 解决率,进一步细化质量评估。我们在 1000 万个 Python 仓库的数据集上评估了过滤流水线,结果表明,在 HumanEval 基准上,使用过滤后数据集训练的模型相较于使用未过滤数据集训练的模型,pass@1 分数提升最高可达 15%。此外,我们还进行消融实验,量化了过滤方法中每个组件的贡献。研究结果表明,系统化的代码质量过滤能够显著提升 LLM 在代码生成任务上的预训练效果。
大型语言模型(LLMs)可以根据自然语言提示生成复杂的源代码。然而,LLMs 可能会生成偏离用户期望的输出。
我们提出一种 genetic programming 方法,自动发现用于 discrete ordinates 求解的 neutron transport 问题的收敛加速方法。
随着大语言模型(LLMs)和基础模型的规模扩大,checkpoint/restore 已成为训练和推理的关键模式。借助 3D 并行(tensor、pipeline、data),...
循环网络通常使用时间反向传播(BPTT)进行训练。然而,BPTT 需要存储网络中所有状态的历史以及 t...
房地产行业仍然高度依赖手工文件处理和验证,使得流程低效且易受欺诈。本文提出...
Transformer-based large language models (LLMs) 已经在广泛的实际应用中展示了显著的潜力。然而,长上下文推理……
实时视频分析(LVA)在大规模摄像头群中持续运行,但使用现代视觉模型的推理成本仍然很高。为了解决这个问题,动态 m...
联邦学习(FL)使移动边缘设备作为客户端,能够协作训练去中心化模型,同时确保本地数据隐私。H...
仿真优化(SO)经常面临噪声评估、高计算成本以及复杂的多模态搜索景观的挑战。本文介绍……
现实世界的约束多目标优化问题 (CMOPs) 通常包含多个约束,理解并利用它们之间的耦合……
在许多实验任务中,ocular fixations 和 saccades 的特性高度随机,它们的统计数据常被用作各种 … 的代理。
基于扩散的 video super-resolution(VSR)方法能够实现强大的感知质量,但由于依赖于……,在对延迟敏感的场景中仍不实用。
AI co-scientists 正在成为帮助人类研究人员实现研究目标的工具。这些 AI co-scientists 的一个关键特性是其能力……
透明物体仍然是感知系统的顽疾:折射、反射和透射破坏了立体视觉、ToF 以及纯粹……的假设。
在对话环境中识别大型语言模型(LLMs)的特定且往往复杂的行为对于其评估至关重要。近期工作提出…
我们引入 Iterated Bellman Calibration,这是一种简单、模型不可知、事后(post‑hoc)校准 off‑policy 价值预测的程序,适用于无限时域的 Markov …
我们提出了一种方法和数据集,用于在偏好监督下通过反馈驱动的改进链对语言模型进行微调。给定模型的响应,……
在专业环境中的自动语音识别(ASR)面临着现有基准低估的挑战:密集的领域术语、正式语体的变体……
大型语言模型(LLMs)正日益被考虑用于高影响力的工作流程,包括学术同行评审。然而,LLMs 易受到文档……
语言代理日益需要持久的世界,在其中它们可以行动、记忆和学习。现有方法位于两个极端:传统的网络 fra...
我们将长上下文语言建模定义为持续学习中的一个问题,而不是架构设计。在这种定义下,我们仅使用标准的 a...
我们提出了一种在线方法,用于同时保证多个分位水平的分位数预测的校准。α水平的分位数预测序列……
我们提出了一种训练高效的时间序列学习框架,将随机特征与受控微分方程(CDE)相结合。在这种方法……
内在图像分解是视觉理解的基础,因为 RGB 图像将材料属性、光照和视角相关效应交织在一起。Rec...
本文的主要研究问题集中在定义在研究关系 b 时所需的或适当的上下文量。
人类通过视觉观察学习运动,先解释视觉内容再模仿动作。然而,state-of-the-art humanoid locomotion sy...
Information-seeking (IS) agents 已在广泛且深入的搜索任务中取得了强劲表现,但它们的工具使用仍然主要局限于 …
Omnimodal 大语言模型在统一音频和视觉模态方面取得了显著进展;然而,它们往往缺乏细粒度的跨模态理解……
我们提出了一种同时近似score function及其导数的理论,使得能够处理具有低维结构的数据分布。
对健康信息的追求已经让网络充斥着消费者的健康相关问题。一般来说,消费者使用过于描述性和外围的……
时空对齐对于自动驾驶(AD)中端到端(E2E)感知的时间建模至关重要,能够提供有价值的结构和纹理……
一对一辅导被广泛认为是个性化教育的金标准,但其规模化成本仍然高得难以承受。为了评估基因……
大型语言模型(LLMs)已经展示出强大的推理和编码能力,但它们在推广到真实世界的软件工程(SWE)问题时仍然面临困难……
生成模型正日益被用于3D视觉,以合成新形状,但仍不清楚它们的生成是否依赖于记忆训练数据。
大多数因果发现方法从观测数据中恢复表示 Markov 等价类的 completed partially directed acyclic graph。最近的工作 …
我们提出 NeuroSPICE,这是一种基于物理信息的神经网络(PINN)框架,用于器件和电路仿真。不同于传统的 SPICE,它依赖于时间……
分布漂移是现实机器学习的决定性挑战。主流范式——无监督领域适应(Unsupervised Domain Adaptation,UDA)——强制特征不变性……
让大型语言模型(LLMs)可靠地调用外部工具仍然是自主代理的关键瓶颈。现有方法在 thr...
近年来,embedded systems 的复杂性和规模,尤其是在快速发展的 autonomous driving systems 领域,显著增加。
大型语言模型(LLMs)在生成教育问题和练习方面具有显著潜力,使教育者能够创建大规模的学习材料……
胰腺肿瘤的早期检测是一个主要的临床难题,主要原因在于肿瘤往往在对比度极低的边缘出现。
提高使用红外夜视摄像机进行火灾检测的准确性仍然是一项具有挑战性的任务。先前的研究报告了强大的性能……
近年来,自动驾驶汽车因被视为解决各种社会问题的方案之一而受到关注。然而,自动驾驶软件需要……
将多模态大语言模型(MLLMs)整合到化学领域有望彻底改变科学发现的方式,但它们理解 d...
锁集通常用于死锁的动态分析。标准的每线程锁集构建仅考虑在同一线程中获取的锁,b...
大型语言模型(LLMs)已经展示出令人印象深刻的推理能力,因而被采用于医疗、法律等高风险领域,……