一名工程师在一小时内打造了生产级 SaaS 产品:这背后的治理系统让它成为可能
AI生成代码的治理挑战 > 每位关注代理式编码浪潮的工程领袖最终都会面临同一个问题:如果AI……
AI生成代码的治理挑战 > 每位关注代理式编码浪潮的工程领袖最终都会面临同一个问题:如果AI……
我们如何处理对话代理中的“灰色区域”逻辑 我们倾向于浪漫化人工智能的“智能”部分。 我们假设 i...
基础模型需要一个基础工具 大型语言模型(LLMs)并不能——也无法——完成所有任务。它们所做的事情非常令人印象深刻且有用:范围广泛,常常类似人类,并且强大……
还记得个人助理只是一种只有高管和名人才能负担得起的东西吗?那段日子正迅速消逝。AI 正在悄然重塑我们的……
TL;DR:用 PromptBuilder AI Prompt Engineer Pro 计划的终身订阅改造你的 AI 工作流——现特价 99 美元。PromptBuilder 是什么?PromptBu...
统一的多模态模型能够在单一架构中同时理解和生成视觉内容。然而,现有模型仍然对数据需求量大,且过于……
我们提出 tttLRM,这是一种新颖的大规模 3D 重建模型,利用 Test-Time Training (TTT) 层实现长上下文、自回归的 3D 重建……
当前的前馈 3D/4D 重建系统依赖于 dense geometry 和 pose supervision —— 在大规模下获取成本高昂,且在动态场景中尤为稀缺……
LLM 代理正快速演进,得益于代码执行、工具以及最近推出的 agent skills 功能。Skills 允许用户扩展 LLM 应用程序……
我们研究已训练分类器集合的后校准不确定性。具体而言,我们同时考虑 aleatoric(标签噪声)和 epistemic(模型)不确定性。
从真实世界观测中估计可用于仿真的场景对于下游的规划和策略学习任务至关重要。遗憾的是,现有方法stru...
Mean Field Games (MFGs) 为建模大规模人口模型中的交互提供了原则性的框架:在大规模下,人口动态变为确定性,……
数据可视化规则——源自数十年在设计和感知方面的研究——确保图表传达的可信度。虽然先前的研究已经表明,大...
随着大型语言模型(LLMs)的兴起,它们已在检索增强生成(RAG)等应用中发挥了关键作用。然而,对这些……
流行病学模型日益依赖自我报告的行为数据,例如疫苗接种状态、口罩使用和社交距离遵守情况,以预测……
当前针对大模型推理的强化学习目标主要侧重于最大化期望奖励。该范式可能导致对 dom... 的过拟合。
目标:通过避免不必要的推理,同时保持……,提升使用大型语言模型(LLMs)进行医学问答(MedQA)的效率。
大型语言模型(LLMs)是如何知道它们所知道的内容的?要回答这个问题一直很困难,因为预训练数据往往是一个“黑箱”——未知的……
解决长期任务需要机器人将高层语义推理与低层物理交互相结合。虽然视觉语言模型(VLMs)...
Reinforcement learning with verifiable rewards (RLVR) 已成为一种有前景的方法,通过利用监督… 来训练推理语言模型 (RLMs)。
我们研究由[Goel et al. 2017]提出的对抗注入模型中的在线学习,其中标记样本流主要是独立同分布(i.i.d.)抽取的 f...
对专家注释的依赖长期以来一直是人工智能在生物医学应用中的主要瓶颈。虽然 supe...
概述:美国人工智能初创公司 Anthropic 表示,三家中国 AI 公司使用其 Claude AI 模型创建了超过 24,000 个欺诈账户,以……
检索增强生成(RAG)通过在生成时条件化检索到的外部文档来提升大语言模型(LLMs),但检索的效果……
基于边缘的表征是视觉理解的基本线索,这一原则源于早期的视觉研究,至今仍然是核心。我们扩展了这一…
大型语言模型(LLMs)在人类获取信息的方式中发挥着关键作用。虽然它们的核心用途依赖于理解书面请求,但我们对……
在本研究中,大型语言模型(LLM)的输出被视为一种信息源,生成从有限字母表中抽取的无限符号序列……
现代代码智能代理在超过 100 万标记的上下文中运行——远远超出人类手动定位相关文件的规模。然而,代理仍然……
大型语言模型正在被部署在复杂的 socio-technical 系统中,这暴露了当前 alignment 实践的局限性。我们持有的立场是 d...
在新西兰首次测试其 AI 驱动的“Prompted Playlist”功能后 https://techcrunch.com/2025/12/10/spotify-tests-more-personalized-ai-powered-pr...
气候科学家在预测地球将变得多热时,一直在与一个出人意料的顽固问题——云层——作斗争,云层既能反射阳光……
OT 与 ICS 面临日益增长的网络安全挑战 随着技术日益数字化和全球互联,运营技术(OT)环境和…
LLM 驱动的应用正通过将 large language models 作为复杂任务执行的核心推理组件,迅速重塑软件生态系统。Th...
随着基于 LLM 的多智能体系统(MAS)日益被部署用于复杂任务,确保其可靠性已成为一个紧迫的挑战。由于 MAS 协...
我使用过的每个 AI 交易助理都有同样的问题:健忘。你让 Claude 分析一笔黄金交易。它会给出扎实的分析——识别出伦敦……
随着运营技术日益与信息技术融合,对入侵检测系统的需求变得更加重要。本文探讨……
如果你是开发者,几乎可以肯定你的机器上有一个文件夹,充当半成品项目的墓地。你知道的那种:你曾经有一个…
完整的 AI 时间线——追踪每一个大型语言模型,从 2017 年的原始 Transformer 到 ChatGPT、GPT‑4、Claude、Gemini、LLaMA、Mistral、DeepSe…
在安全关键系统工程中采用 large language models 受到可信度、可追溯性以及与既定验证标准的一致性等因素的限制。
!https://9to5google.com/wp-content/uploads/sites/4/2026/02/wispr-flow-android-3.png?w=1200 Android 上的语音转文字在使用 Pixel 时表现非常好,而且……
!物理 AI 企业“RealWorld”,加入 Upstage 的“独立 AI 基础模型”生态系统
背景 当一家公司要求求职者提交一个回答问题的视频时,300 份回复中大多数“惊人地相似”,华盛顿...
在企业中实现 AI 价值的限制因素不是模型智能,而是代理在组织中的构建和运行方式。我们最近…
根据 LangChain 2026 年《State of Agent Engineering》报告,1300 多名受访者表示,质量是生产代理部署的首要障碍。32% 的团队提到 i...
自主编码代理正日益通过在 GitHub 上提交 pull request 为软件开发做出贡献;然而,人们对这些贡献的了解仍然很少……
markdown 2026年1月29日 Ajeet Mirwani 美洲项目负责人,Google Developer Experts
问题:考虑一个为用户管理 USDC 的自主代理。没有防护措施时:- 代理调用 transfer500,wallet_address —— 该钱包是否可信?是否……
背景 Claude Code 生态系统正在快速发展,其命名约定可能令人困惑。在众多组件中,Agent Skills 通常是最...