[Paper] 1001 LoC的故事:潜在运行时错误引导的规范合成用于验证大规模程序
对大规模软件和硬件系统进行全自动验证可以说是形式化方法的圣杯。大型语言模型(LLMs)最近…
对大规模软件和硬件系统进行全自动验证可以说是形式化方法的圣杯。大型语言模型(LLMs)最近…
概述:手动频繁测试 Qdrant 快照的有效性非常重要。向量数据库没有传统 SQL 数据库那样稳健,所以……
对阻断的认知 大多数团队认为阻断是: - 403 响应 - CAPTCHA 页面 - 明确的 “Access Denied” 屏幕 现代网站通常更倾向于…
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行翻译。
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。
2025年12月16日
大型语言模型(LLMs)在代码生成方面取得了显著进展,这在很大程度上得益于高质量代码数据集的可用性,从而实现了有效的预训练。然而,现有的代码语料库通常是从公共代码仓库(例如 GitHub)收集的,可能包含大量低质量或噪声代码,这会削弱 LLM 的性能。本文提出了一种新颖的方法,能够自动过滤大规模代码语料库中的低质量代码,从而提升 LLM 训练数据的质量。我们的方法结合了静态分析、动态测试以及社区反馈信号来评估代码质量。具体而言,首先使用静态分析工具检测语法错误、潜在 bug 和代码异味;随后在沙箱环境中运行代码,并利用自动生成的测试用例评估运行时行为和正确性;最后,结合原始仓库的社区反馈,如 star 数、fork 数和 issue 解决率,进一步细化质量评估。我们在 1000 万个 Python 仓库的数据集上评估了过滤流水线,结果表明,在 HumanEval 基准上,使用过滤后数据集训练的模型相较于使用未过滤数据集训练的模型,pass@1 分数提升最高可达 15%。此外,我们还进行消融实验,量化了过滤方法中每个组件的贡献。研究结果表明,系统化的代码质量过滤能够显著提升 LLM 在代码生成任务上的预训练效果。
引言 当人们听到“classifieds marketplace”时,通常会想象到 listings、filters、categories、messages——以及背后现成的 script……
引言 随着大规模语言模型(LLMs)规模的不断扩大,用于训练的底层硬件已成为唯一最关键的因素。
免责声明 本指南仅用于教育目的。Instagram 自动化应遵守 Instagram 的服务条款。始终负责任地使用自动化。