无需太空装备——Capcom的《PRAGMATA》在首发日加入GeForce NOW
直接进入轨道,使用 GeForce NOW https://www.nvidia.com/en-us/geforce-now/ ——无需太空头盔。PRAGMATA,Capcom 期待已久的科幻动作冒险……
直接进入轨道,使用 GeForce NOW https://www.nvidia.com/en-us/geforce-now/ ——无需太空头盔。PRAGMATA,Capcom 期待已久的科幻动作冒险……
在数据敏感的领域,如医疗保健,跨筒联邦学习(CFL)允许组织在不共享原始数据的情况下协同训练 AI 模型……
Vibe coding 本质上假设通过反馈循环对 LLM 生成的代码进行迭代式精炼。虽然在传统软件任务中有效,但其可靠性……
随着代理系统进入日益多样化的执行环境,轨迹级安全评估和诊断需要能够随之演进的基准。A...
联邦学习(FL)中的通信瓶颈促使了大量研究,旨在降低客户端设备之间交换数据的体积……
在许多实际场景中,需要求解的问题实例非常相似,先前优化运行中获得的知识有可能被利用……
Mixture-of-Experts(MoE)模型已成为大规模语言模型的主流架构,但本地部署在根本上仍受内存限制……
在现代数据流系统中,除了传统程序之外,出现了一种能够与流式数据交互的新型实体:AI agents。与传统…
概述 OpenAI’s Trusted Access for Cyber 基于一个简单前提:先进的网络能力应广泛惠及防御者,但访问必须随……
长视频理解对视觉语言模型(VLM)而言本质上具有挑战性,因为帧数庞大。每个视频帧通常……
Seedance 2.0 是一种全新的原生多模态音视频生成模型,于2026年2月初在中国正式发布。与其前代相比,Seed…
基于多模态大型语言模型(MLLM)的现有分割模型,例如 LISA,常常因其无法处理新出现或新兴实体而面临困难。
对三维场景的空间推理是具身智能的核心能力,但持续的模型改进仍受到成本的瓶颈限制。
虽然通过可验证奖励的强化学习(RLVR)通过优化条件分布 P(y|x) 显著提升了 LLM 的推理能力,但它的潜力……
流式 3D 重建旨在从视频流中恢复 3D 信息,如相机位姿和点云,这需要几何精度,t...
随着语言模型日益被用于复杂的自主任务,它们在更长时间范围内进行准确推理的能力变得至关重要。An essentia...
评估 LLMs 具有挑战性,因为基准分数往往无法捕捉模型在真实世界中的实用性。相反,用户常常依赖 “vibe-testing”:非正式的……
虽然音视频语言模型(AVLMs)在最近几年取得了显著进展,但它们的可靠性受到跨模态幻觉的瓶颈限制。
修辞性问题的提出不是为了获取信息,而是为了说服或表明立场。大型语言模型内部如何表示它们仍不清楚。我们...
虽然端到端的 Vision-Language-Action(VLA)模型为机器人操作提供了一个有前景的范式,但在狭窄的控制数据上对其进行微调往往会导致性能妥协……
LLM 推理轨迹存在复杂缺陷——*Step Internal Flaws*(逻辑错误、幻觉等)和*Step-wise Flaws*(思考过度、思考不足……)。
虽然大型语言模型(LLMs)已经赋能AI研究代理执行孤立的科学任务,但自动化复杂的真实世界工作流,例如LLM……
序列推荐在学术界和工业界,尤其是电子商务领域,变得日益突出。其主要目标是提取用户偏好…
GUI grounding,指在给定自然语言查询的情况下,从截图中定位界面元素,对于小图标和密集布局仍然具有挑战性。Test-t...
Large Language Models (LLMs) 现在能够生成高度流畅、类人文本。它们支持许多应用,但也引发了诸如大…的担忧。
最近的研究表明,(stochastic) gradient descent 会自组织到接近不稳定边界的区域,从而塑造了优化过程以及所找到的解。Momentum...
后训练阶段对语言模型的适配通常通过参数更新或基于输入的方法实现,例如 fine-tuning、parameter-efficient adaptation 等。
我们提出 UMI-3D,这是一种多模态扩展的 Universal Manipulation Interface(UMI),用于在具身操作中实现稳健且可扩展的数据收集。虽然 …
On-policy knowledge distillation (OPD) 在其自身的 rollouts 上,在来自 teacher 的 token‑level supervision 下训练 student。并非所有 token 位置的重要性相同……
我们引入 Multistage Conditional Compositional Optimization(MCCO)作为一种在不确定性下进行决策的新范式,它结合了多阶段……
语义多目标跟踪(SMOT)将多目标跟踪扩展为具有语义输出,例如视频摘要、实例级别的字幕和交互标签……
在编程语言中,解析和重写引用是基础工作。受真实的反编译任务的启发,我们将引用重写抽象为 t...
Human-Object Interaction (HOI) 检测是一个长期存在的计算机视觉问题,旨在预测人类与物体之间的交互。当前…
公平性在算法决策中通常在预测空间中定义,其中预测性能——用作决策者(DM)效用的代理……
生成式人工智能的最新进展,尤其是大型语言模型(LLMs),激发了人们对自动化或协助Bu...的日益兴趣。
Diffusion language models 最近作为标准语言模型的主要替代方案出现,原因是它们具备 bidirectional attention 和并行…
自动代码生成仍然是软件工程中的一个持久挑战,因为传统的 multi-agent 框架常常受到 static planning 的限制……
本文为您提供五个实用技巧,帮助您充分利用现代化工作。欢迎参加我们即将举办的网络研讨会,了解更多信息 https://streamyard.co...
软件工程中的情感分析侧重于理解软件制品中表达的情感。先前的研究指出了其局限性。
在缺乏持续外部输入的情况下,自我维持的神经活动是神经系统动力学的基本特征,然而其出现的条件……
本研究考察了加性噪声和乘性噪声对单个泄漏积分‑发放(LIF)神经元以及训练后的脉冲神经网络的影响……
我们提出了一种新颖的 end-to-end 隐私保护框架,由三个高效的 protocols 实现,适用于不同的部署场景,覆盖了输入和…
旅行窃贼问题(TTP)是一种著名的多组件优化问题,捕捉了两个组件之间的相互依赖:旅行路线跨越……
露天采矿调度是一个复杂的现实世界优化问题,涉及不确定的经济价值和动态变化的资源容量。Evol...
现代 GPU 工作负载,尤其是大语言模型(LLM)推理,受到 kernel launch 开销和粗粒度同步的限制,这限制了 inter‑kernel 并行性。
我们正逐步进入开发者大会季,接下来日程中最大的一场活动就是 Google I/O。今年的大会将在五月举行。
最近在视频生成方面的进展使得3D场景创建出现了新范式:生成受摄像机控制的视频,以模拟场景漫游,然后提升……
大型语言模型(LLMs)和视觉语言模型(VLMs)越来越多地通过布局和场景图等中间结构生成室内场景。