埃隆·马斯克的 Grok “Undressing” 问题仍未解决
X 对 Grok 生成明确 AI 图像的能力施加了更多限制,但测试显示这些更新导致了一系列零散的限制,未能……
X 对 Grok 生成明确 AI 图像的能力施加了更多限制,但测试显示这些更新导致了一系列零散的限制,未能……
X 已对 Grok 生成明确 AI 图像的能力施加了更多限制,但测试显示,这些更新导致了一系列零散的限制,导致 …
Higgsfield 表示其年收入跑道为 $200 million。于是,它重新开启了之前的 Series A 融资,并再次出售了 $80 million 的股份……
我们提出了 WildRayZer,一个用于新视角合成(NVS)的自监督框架,适用于相机和物体同时移动的动态环境。动态内容…
我们提出了一种新颖的可微分网格表示,用于高效求解微分方程(DEs)。广泛使用的神经求解器架构,……
我们介绍了 Alterbute,这是一种基于 diffusion 的方法,用于编辑图像中对象的内在属性。我们可以改变颜色、纹理、材料,甚至……
工具集成推理(Tool-Integrated Reasoning,TIR)使大型语言模型(LLMs)能够通过将推理步骤与外部工具交互交错进行,来处理复杂任务。H...
Vision-Language Models (VLMs) 通过使用一种粗糙、非对称的连接,仅将 vision encoder 的输出链接起来,造成了严重的视觉特征瓶颈……
Diffusion models 已经在从丰富的多模态分布中采样方面展示了显著的经验成功。它们的推断依赖于数值求解某种…
近期在端到端自动驾驶方面的进展表明,从基础模型中提取的补丁对齐特征训练的策略在对 Out-... 的泛化能力更强。
我们研究一种半异步的客户端‑服务器感知器,通过迭代参数混合(IPM‑style averaging)进行训练:客户端执行本地感知器更新,并且 …
在长期、目标导向的交互中部署大型语言模型仍然具有挑战性,因为相似的实体和事实会在不同的潜在 …
Federated learning 使多个参与方能够在不共享各自底层数据的情况下共同训练学习模型,提供了一条实现隐私-...
Concept-based explanations 量化了高级概念(例如 gender 或 experience)对 model behavior 的影响,这对高…的决策者至关重要。
我们的研究考察生成式人工智能(GenAI)如何影响建筑概念设计任务中的绩效、创造性自我效能感和认知负荷。三十...
在不同条件下对复杂动力系统进行建模计算量巨大,常常导致高保真模拟难以实现。虽然降低…
AI 不是你的产品——Kirk 概念
规模定律在现代 AI 革命中发挥了重要作用,为从业者提供了预测模型性能随...提升的能力。
大型语言模型(LLM)的上下文通常通过检索增强生成(RAG)构建,其中包括对候选段落进行排序并选择 top‑k 段落……
Hierarchical reasoning model (HRM) 在各种推理任务上取得了非凡的表现,显著超越了基于 large language model 的推理方法。
训练和服务大型语言模型(Large Language Models (LLMs))需要在多个加速器之间划分数据,其中集合操作经常成为瓶颈……
在论证性文本中检测说服是一项具有重要意义的挑战性任务,对理解人类交流具有重要影响。本研究调查了 r...
大型语言模型(LLMs)已成为进化搜索的强大操作器,然而高效搜索支架的设计仍然是临时的。虽然 prom...
我们研究具有多个属性的 LTLf 合成,其中满足所有属性可能是不可能的。我们不是枚举属性的子集,而是计算……
最近在视频模型方面取得了巨大的进展,尤其是在长视频理解方面。然而,当前的基准测试主要呈现……
大型语言模型(LLMs)可以通过对其输出表达置信度来提升用户的感知信任。然而,先前的研究表明,LLMs往往 o...
过去一年,AI行业最具争议的问题之一是,当用户在聊天机器人中表现出心理健康困扰的迹象时该怎么办。
在本文中,我们发现3D人体动作和2D人体视频的生成本质上是耦合的。3D动作为合理性提供结构先验……
Cowork 是 Anthropic 的 Claude Code AI 驱动工具的用户友好版,专为文件管理和基础计算任务而构建。以下是它的使用体验……
2024年,我有幸与迈阿密海豚队的游泳教练合作,他们着手开展一项任务,以优化他们在水上竞争的优势。
当今最强的视频语言模型(VLM)仍然是专有的。最强的开源权重模型要么依赖于来自专有 VLM 的合成数据,有效地……
自适应视频流在过去几年中促进了视频流的改进。需要在比特率、视频质量等编码性能目标之间取得平衡……
Talking head generation 在虚拟现实(VR)中变得日益重要,尤其是在涉及多轮对话的社交场景中。现有方法……
Checkmarx 的首席产品官 Jonathan Rende 正在解决当前 AppSec 中最紧迫的问题之一:当 AI 开始编写主要……
在多智能体多臂赌博机(MA-MAB)的背景下,公平性通常被简化为结果:最大化福利、降低不平等或平衡效用……
从视觉观察中推断物理动作是推动 machine intelligence 在物理世界中发展的基本能力。实现这一点需要…
Large Language Models (LLMs) 已经展现出卓越的能力,但仍然容易受到旨在绕过 safety guardrails 的对抗性 “jailbreak” 攻击。
条件语言模型的内在评估指标,如 perplexity 或 bits-per-character,已在单语和多语环境中被广泛使用……
VMware Cloud Foundation VCF Private AI Services 提供一套服务,使您能够在 VCF 环境中轻松且安全地部署 AI 工作负载。Co...
Shapley Values 是最常用的可解释性方法之一,但它们可能具有误导性。了解如何克服这些限制,以实现更好的 i...
对大型语言模型(LLMs)进行选择性知识擦除对于遵守GDPR以及模型安全至关重要,然而当前的unlearning方法将行为抑制与真正的…混为一谈。
多智能体系统 (MAS) 通过协调多个代理实现复杂推理,但由于多步执行和重复... 常常导致高推理延迟。
大型语言模型(LLMs)在自然语言任务中取得了令人印象深刻的表现,并且正日益在真实世界的应用中部署。尽管...
你已经因为它的病毒式编辑功能而熟知 https://blog.google/products/gemini/nano-banana-tips/。但是,Google DeepMind 最受欢迎的模型之一是如何…
大型语言模型正日益用于代码生成和调试,但它们的输出仍可能包含来自训练数据的错误。Dist...
充分利用 Claude Code。文章《如何并行运行 Coding Agents》首次发表于 Towards Data Science……
🛑 当你的 Agent 做得太多 你已经构建了一个 AI agent。它很聪明,能够调用 tools,并自动化 workflows。它是未来!但如果出现这种情况会怎样……