AI agents 可以对话——编排是让它们协同工作的关键
与其询问 AI 代理如何为他们工作,企业现在的关键问题是:代理之间能否协同良好?这使得跨多…的编排变得重要。
与其询问 AI 代理如何为他们工作,企业现在的关键问题是:代理之间能否协同良好?这使得跨多…的编排变得重要。
Vision-Language-Action (VLA) 任务需要对复杂视觉场景进行推理,并在动态环境中执行自适应动作。虽然最近的研究关于 …
基于Transformer的语言模型通常在数学推理基准上取得强劲的结果,但在基本的数值理解方面仍然脆弱……
代码生成任务旨在自动将用户需求转换为可执行代码,显著降低手动开发工作量并提升……
Segment Anything 3 (SAM3) 已经建立了一个强大的基础,能够在视频中稳健地检测、分割和跟踪指定目标。然而,在其原始…
从稀疏多视角进行 3D pose estimation 是众多应用的关键任务,包括 action recognition、sports analysis 和 human-robot interaction 等。
基于扩散模型的现代视频生成模型能够生成非常逼真的片段,但它们计算效率低下,通常需要数分钟的……
LLMs 正日益被整合到临床工作流程中,但它们往往缺乏 clinical empathy,这是有效 doctor-patient communication 的关键方面。
随着大型语言模型(LLMs)持续扩展,后训练剪枝已成为一种有前景的方法,可在保持性能的同时降低计算成本……
基于结构的和基于配体的计算药物设计传统上依赖于相互独立的数据来源和建模假设,这限制了它们的联合使用……
大型语言模型(LLM)路由器会根据给定输入动态选择最优模型。现有方法通常假设可以获取真实标签数据,...
Deep research systems 被广泛用于 multi-step web research、analysis 和 cross-source synthesis,但它们的评估仍然具有挑战性。Existing benc...
多任务学习(MTL)结合低秩适应(LoRA)已成为参数高效部署大型语言模型的有前景的方向。
现代供应链正日益面临来自地缘政治事件、需求冲击、贸易限制以及自然灾害的中断。虽然许多...
如果你想在 AI 领域取得成功——我的意思是以最大、最有利可图、最能按照你的想象塑造世界的方式取得成功——你必须做很多艰难的事……
当今组织希望构建能够处理多种任务的聊天机器人,例如FAQ、troubleshooting、recommendations 和 ideation。我的之前的…
我们推出 STEP3-VL-10B,这是一款轻量级开源基础模型,旨在重新定义紧凑效率与前沿水平多模态之间的权衡……
Multi-agent systems 已经发展成为许多应用中的实用 LLM 驱动协作者,通过多样性和交叉检查获得了鲁棒性。然而,m...
单目视觉SLAM能够从互联网视频进行3D重建,并在资源受限的平台上实现自主导航,但却受到尺度漂移的影响,…
在长时段视频中识别单个动物对于行为生态学、野生动物监测和畜牧管理至关重要。传统方法 r...
大规模视觉语言模型(如 CLIP)能够实现强大的零样本识别,但在预训练期间很少见到的类别上表现不佳,包括……
从单张图像估计物理上准确、simulation-ready 的服装具有挑战性,因为缺乏 image-to-physics 数据集,并且该问题是病态的 n...
表格基础模型(TFMs)最近在结构化数据上展示了强大的上下文学习能力,实现了与 t... 相媲美的零样本性能。
词义消歧(WSD)已广泛使用 WordNet、BabelNet 和 Oxford Dictionary of English 等语义框架进行评估。然而,对于...
文本到图像(T2I)模型日益流行,产生了大量在线的 AI 生成图像。为了比较模型质量,基于投票的排行榜……
文章《2026:This is AGI》首次出现在 Sequoia Capital....
虽然 GUI 代理在明确指令和完成指令下表现出强大的性能,但在实际部署中需要与用户更复杂的实现保持一致。
大规模优化是现代商业决策的关键支柱。然而,构建这些模型往往劳动密集型且耗时。我们…
Taxonomies 构成了跨多个领域的结构化知识表示的骨干,使得 e‑commerce catalogs、semantic search 等应用成为可能,…
高效地优化电池充电协议具有挑战性,因为每次评估都慢、成本高且不可微分。许多现有方法……
神经网络通常在高度过参数化的 regime 中进行训练,然而实证证据始终表明,许多参数在...期间会变得冗余。
TL;DR:我测量了在 raw identifiers 从未进入 prompt 时,LLM 是否仍能理解关系和上下文。结果表明——simple redaction 并不是……
从优化指标到设计意义:将人重新放回数据驱动的决策中——文章《为什么以人为本的数据分析比以往任何时候都更重要》。
Google 对 Gemini 的目标是打造一个“个人、主动且强大”的助手。今天,Gemini 应用正在 beta 版中加入 “Personal Intelligence”。这让……
实验性的机器人优化通常需要对每个候选策略进行数秒到数分钟的评估。所选择的评估时间会影响优化,因为...
Personal Intelligence 默认关闭,因为用户可以自行选择是否以及何时将他们的 Google apps 连接到 Gemini……
Google的Gemini AI 正在获得可能是一次非常大的升级:为了让 Gemini 的答案更加个性化,公司将让你连接……
本文介绍了SiliconHealth,一个面向资源受限地区,特别是撒哈拉以南地区的综合区块链医疗基础设施。
本文介绍了SiliconHealth,一个面向资源受限地区,特别是撒哈拉以南地区的综合区块链医疗基础设施。
封面图片:So,AI终将抢走你的工作
结构化知识如何成为医疗保健的静默优势 《What Is a Knowledge Graph — and Why It Matters》 首次发表于 Towards Data Science....
OpenAI 与 Cerebras 合作,新增 750MW 的 high-speed AI compute,降低 inference latency,使 ChatGPT 在 real-time AI workloads 中更快。
英国最大警察部队之一的总警长承认,微软的 Copilot AI 助手在一份足球情报中犯了错误。
您现在可以通过 Vercel 访问 GPT 5.2 Codex,无需其他提供商账户。GPT 5.2 Codex 结合了 GPT 5.2 在专业知识工作方面的优势……
Seeded topic modeling、与 LLMs 的集成,以及在摘要数据上的训练是 NLP 工具箱中的新内容。文章《Topic Modeling Techniques for 202...》。
当需要在一组代理人之间分配资源并遵循平等主义社会福利时,目标是最大化效用最小的代理人的效用。
大规模、计算密集型的应用,如高性能计算、人工智能和大数据的广泛部署正导致……