高效捕获大气中CO2的方法 / Univ of Helsinki
请提供您希望翻译的具体摘录或摘要文本。
请提供您希望翻译的具体摘录或摘要文本。
介绍 HashiCorp Vault 是一个灵活的 secret management engine,提供多种身份验证和授权机制。它存储诸如 …
测量 function similarity 来检测 bugs 是有效的,但与 bugs 无关的语句可能会因噪声干扰而影响性能……
Soul Cocktail – 主页大图
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行翻译。
我用了 Kiro 和一些从未尝试过的技术,重建了一个七年未动的旧网站。我从不到一小时内实现 auth,到花费……
对生产力的迫在眉睫的威胁:2026 年的数字风险 随着 2026 年的临近,数字世界既提供了令人难以置信的机遇,也带来了日益增长的危险。虽然……
引言:孟加拉国正迅速崛起为外商投资的关键目的地。其战略性地理位置、充足的劳动力以及正在进行的...
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。
SSH MCP Bridge – 异构基础设施的开源协同 我已经管理我的家庭实验室多年了,它处理了很多:两个 Kubernetes 集群……
已清理的 Markdown 数学在日常生活和决策中的重要作用 数学远不止是学校里学习的一门学科;它是一种多功能的…
为什么 Generative AI 很重要? 与传统 AI 不同,传统 AI 通常进行分类或预测,Generative AI 根据学习到的模式创建新的输出。开发者……
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行翻译。
你的 Ethereum 地址看起来像:0x8f3a...d91c,对机器友好,却对人类极其不友好。没有创始人在路演时会说“把它发送到 0x8f3a…”。没有朋友会……
封面图片:Moving From Strategy to Design:2025 回顾与 2026 路线图 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravit...
引言 在当今以数字为先的世界中,企业正迅速将其 IT 基础设施迁移到云端,以保持竞争力和敏捷性。 在云平台…
抱歉,我需要您提供要翻译的具体文字内容才能进行翻译。请粘贴您想要翻译的摘录或摘要,我会为您翻译成简体中文。
如果你运营一个 WordPress 网站,你可能已经见过以下至少一种情况:- 在任何时间出现的奇怪登录尝试 - 带有随机链接的垃圾评论 - “用户注册……”
降低 WAF 的误报:将 OWASP 规则与 AI 上下文相结合!封面图:降低 WAF 误报:将 OWSQL 规则与 AI Contexth 相结合
Real World Asset RWA tokenization 已成为金融格局中最具变革性的进展之一。通过利用区块链技术,...
将我的提示粘贴到 Claude Code 中,并嵌入用于访问我的公共只读 SQL+vector 数据库的 API key,这样你就拥有了一个最先进的研究工具 o...
介绍 ISO 55001 Asset Management Manual 是一份正式文件,解释组织如何以结构化、一致且有效的方式管理其资产,...
Enterprise IT 过去遵循一个简单的节奏:监控系统、检测问题并修复它们。这个节奏现在已经被打破。现代基础设施变化太快,...
对于开发者来说,现代 AI 最大的挑战不再是生成文本——而是让 AI 在真实应用中发挥作用。大多数生产系统不需要…
引言:GIS领域的三维城市模型正朝着技术集成、基础设施发展和更深入的应用方向演进,正成为一个……
封面图片:How Modern AI Tools Are Really Built https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2F...
Conversational AI 常被误解为更智能的 chatbot。实际上,它代表了服务运营方式的根本性重新设计。正如在……中所解释的那样。
量子软件工程(QSE)对于确保混合量子‑经典系统的可靠性和可维护性至关重要,然而关于……的实证证据仍然不足。
你使用 Vercel AI SDK 构建了一个 AI 聊天机器人。它运行良好,用户也很喜欢。然而,它只需三行代码就可能被攻破。Vulnerable Prompt ts // ❌ Vul...
易受攻击的示例 js // ❌ 看起来没问题,对吧? async function getUseruserId { const query = SELECT FROM users WHERE id = '${userId}'; const result = await...
大多数人认为量子计算需要巨大的实验室和疯狂的硬件。他们想得太复杂了。下面是实际可行的方案 ↓ 我最近了解了一款芯片…
问题 每周,机密泄露:API 密钥提交到 GitHub,配置文件中的数据库密码,环境变量默认值中的 AWS 凭证。解决方案是…
随着 Software Engineering 进入其新纪元(SE 3.0),AI coding agents 越来越多地自动化软件开发工作流。然而,仍不清楚具体……
LLM-based software engineering 正在影响现代软件开发。除了正确性之外,先前的研究还考察了软件的性能。
AI Trading – 法律与伦理经验教训 “AI Trading Legal?” – 那次 Google 搜索把我的兴奋变成了一堂关于监管、合规以及……的速成课。
Qdrant 集群在 AWS ECS 上的 CDK 代码片段 !Sarma https://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-upl...
《Building Cultural Intelligence into Database Processing: A Pattern Recognition Challenge》的封面图片 https://media2.dev.to/dynamic/image/width=1000...
对大规模软件和硬件系统进行全自动验证可以说是形式化方法的圣杯。大型语言模型(LLMs)最近…
概述:手动频繁测试 Qdrant 快照的有效性非常重要。向量数据库没有传统 SQL 数据库那样稳健,所以……
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行翻译。
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。
2025年12月16日
大型语言模型(LLMs)在代码生成方面取得了显著进展,这在很大程度上得益于高质量代码数据集的可用性,从而实现了有效的预训练。然而,现有的代码语料库通常是从公共代码仓库(例如 GitHub)收集的,可能包含大量低质量或噪声代码,这会削弱 LLM 的性能。本文提出了一种新颖的方法,能够自动过滤大规模代码语料库中的低质量代码,从而提升 LLM 训练数据的质量。我们的方法结合了静态分析、动态测试以及社区反馈信号来评估代码质量。具体而言,首先使用静态分析工具检测语法错误、潜在 bug 和代码异味;随后在沙箱环境中运行代码,并利用自动生成的测试用例评估运行时行为和正确性;最后,结合原始仓库的社区反馈,如 star 数、fork 数和 issue 解决率,进一步细化质量评估。我们在 1000 万个 Python 仓库的数据集上评估了过滤流水线,结果表明,在 HumanEval 基准上,使用过滤后数据集训练的模型相较于使用未过滤数据集训练的模型,pass@1 分数提升最高可达 15%。此外,我们还进行消融实验,量化了过滤方法中每个组件的贡献。研究结果表明,系统化的代码质量过滤能够显著提升 LLM 在代码生成任务上的预训练效果。
引言 随着大规模语言模型(LLMs)规模的不断扩大,用于训练的底层硬件已成为唯一最关键的因素。
TL;DR AI 人流分析不仅仅是简单的人数计数。它将原始视频和传感器数据转化为行为信号,以支持运营决策。
文章链接: http://www.redbook.io/ 评论链接: https://news.ycombinator.com/item?id=46440510 点数: 110 评论数: 9