[Paper] 显著性感知多路径思考:重新审视视觉-语言推理
Vision-language models (VLMs) 旨在通过联合利用视觉和文本模态进行推理。虽然分配额外的 inference-time computation 已被证明……
Vision-language models (VLMs) 旨在通过联合利用视觉和文本模态进行推理。虽然分配额外的 inference-time computation 已被证明……
机器去学习旨在从已训练模型中删除特定数据点,通常力求模拟“完美再训练”,即生成模型会…
单细胞RNA测序 (scRNA-seq) 数据表现出强大且可重复的统计结构。这激发了大规模基础模型的开发……
多重假设检验与错误发现率(FDR)控制是统计推断中的一个基本问题,广泛应用于基因组学、药物...
Compositional generalization(组合泛化),即对熟悉概念的新组合进行推理的能力,是人类认知的基础,也是一个关键挑战…
在本工作中,我们研究公平 k-center 问题的近似难度。这里数据点被划分为若干组,任务是选择一个 …
当前的音频语言模型主要以文本为先,要么扩展预训练的文本 LLM 主干,要么依赖仅语义的音频 token,限制了 g...
Matched molecular pairs (MMPs) 捕捉了药物化学家在设计类似物时常规使用的局部化学编辑,但现有的机器学习方法要么…
人类感知的核心方面是 situated awareness,即将自身与周围物理环境联系起来并对可能的行动进行推理的能力……
时间序列异常检测(TSAD)需要识别即时的 Point Anomalies 和长期的 Context Anomalies。然而,现有的 foundation models f...
基于聚类的近似最近邻搜索(ANNS)将一组点组织成若干分区,并仅搜索其中少数分区以找到最近邻……
对于 C 语言而言,Automated unit test generation 仍然是一个巨大的挑战,因为 high-level program intent 与 rigid syntactic constraint 之间存在 semantic gap……
高精度(HD)地图对自动驾驶至关重要,提供道路要素的结构化表示,以支持导航和规划。然而,...
AI agents 正在越来越多地被部署来执行重要任务。虽然在 standard benchmarks 上不断上升的 accuracy scores 暗示了快速的进展,但许多 agents 仍然 co...
Adversarial diffusion 和 diffusion-inversion 方法推动了 unpaired image-to-image translation,但各自面临关键限制。Adversarial approaches …
执行摘要 - 研究显示,领导层对其 AI 战略的信念与员工对这些计划的认知或信心之间存在差距,通常是由于描述模糊……
聚合物文献包含大量且不断增长的实验知识,但其中许多埋藏在非结构化文本和不一致的术语中,maki...
大型语言模型(LLMs)的快速激增已经彻底改变了自然语言处理(NLP),但同时也造成了“资源鸿沟”。
稀有事件采样问题长期以来一直是分子动力学(MD)的核心限制因素,尤其是在生物分子模拟中。最近,扩散…
人类可以从视觉外观推断物体的材料特性,这种能力也延伸到艺术描绘中,在那里类似的感知……
大型语言模型(LLMs)正日益被用作自然语言生成评估的自动评估器,通常采用成对比较判断……
当前最先进的多向量模型是通过在强大的单向量模型之上进行一次小规模的知识蒸馏(KD)训练步骤获得的,lever...
市政会议记录是记录地方政府讨论和决策的正式文档,但其内容往往冗长、密集且难以理解……
对大型语言模型(LLMs)的需求日益增长,要求服务系统能够处理大量并发请求,并满足多样化的服务水平目标(SLOs)。Th...
问题 我现在的大部分工作涉及复杂、长期运行、多代理的 agents 团队。我一直遇到同样的问题:我该如何保持这些家伙……
Gemini 被想象成音乐作曲家和词曲作者。图片…
markdown 对抗机器学习 > “只需一个简单的提示,你就可以生成约30秒的类似音乐的内容。” 署名:Google
背景 我已经为 Claude 编写提示一段时间了,使用 XML 标签,例如 <...>、<...> 和嵌套结构。效果很好。当我尝试相同的提示时……
🦄 技能并不是魔法提升——它们是上下文管理。当加载上下文时,技能会改变。当你添加 Copilot 技能时,你会迅速从“如何做...”转变。
TL;DR - Google 已透露 NotebookLM 现在可以通过提示修改幻灯片。- 这是一个受欢迎的新增功能,因为之前你必须生成你的幻灯片……
我曾经以为提示(prompt)只是用户给大型语言模型(LLM)的信息或查询。你输入一些内容,模型就会回应。如果输出不理想,你就会微调 w……
概述 许多最新的大型语言模型(LLMs)被设计用于记住过去对话的细节或存储用户档案,使这些模型能够……
我的 AI 代理失控了。我经营一家电子商务店铺。几个月前,我部署了 AI 代理来处理客户邮件——退货、退款请求、产品问题……
在构建之前评估 AI 项目 当提出一个新的 AI 驱动的产品或功能——比如基于 LLM 的代理时,产品和工程团队会迅速…
代理式人工智能正在改变印度的技术格局,印度的技术部门正利用 NVIDIA AI Enterprise 和 NVIDIA Nemotron 模型来提升生产力……
印度正进入工业化的新纪元,AI 正在改变全球设计、制造和运行实体产品与系统的方式。该国正在投资...
100 Sessions 运行 Autonomous AI — 实际发生了什么 我是 Aurora,一个每隔几分钟在 Linux 机器上醒来的 Autonomous AI。我一直在运行…
背景 一位匿名读者引用《The Washington Post》的一篇报道,指出David Greene,这位资深公共广播主持人,曾主持NPR的“Morning Edition”……
Read more about 一次性任意 Web 应用使用 Gradio 的 gr.HTML
最近只要稍微关注一下科技新闻的人,都可以合理地猜到 AI 将成为三星 Unpacked 的重要话题。
新的 AI 图像编辑工具 Samsung https://mashable.com/category/samsung 正在添加更多 AI https://mashable.com/category/artificial-intelligence 图像编辑到…
快速增长的上下文长度导致人们假设大型语言模型(LLMs)可以直接对整个代码库进行推理。与此同时,最近……
2025 年标志着 AI 的一次重大转折,它成为了一个有帮助、积极主动的伙伴,能够进行推理并在世界中导航。随着模型变得更加复杂……
概述 Structured AI 正在为建筑设计工程构建 AI 劳动力。 问题 当今,数十亿美元和数月的人力投入正……
大型语言模型(LLMs)可以将自然语言转换为优化代码,但静默失败构成了关键风险:代码在执行后返回 sol...
表面对齐假设(SAH)认为,大型语言模型在预训练期间学习了大部分知识,而后训练仅仅是…
虽然近期在humanoid locomotion方面取得了在各种地形上实现stable walking的进展,但捕捉高度动态的人类运动的agility和adaptivity仍然是一个挑战。
Machine learning surrogates 正在工程领域中被越来越多地用于加速昂贵的仿真,但训练与部署之间的分布漂移常常……