[Paper] VideoSketcher: 视频模型先验实现多功能顺序草图生成
素描本质上是一个顺序过程,笔画按照有意义的顺序绘制,以探索和细化想法。然而,大多数 generative models 将……
素描本质上是一个顺序过程,笔画按照有意义的顺序绘制,以探索和细化想法。然而,大多数 generative models 将……
近期深度强化学习(RL)的进展在高维控制任务上取得了显著成果,但将RL应用于可达性问题仍然面临挑战……
临床部署胸部X光分类器需要能够在新数据集可用时进行更新的模型,而无需对先前的...
在良性任务上对齐语言模型进行 Fine-tuning 会不可预测地削弱 safety guardrails,即使训练数据不包含有害内容,开发者……
!Claude Mac 应用 https://9to5mac.com/wp-content/uploads/sites/6/2024/10/claude-mac-app.jpg?quality=82&strip=all&w=1600 Claude Sonnet 4.6 模型带来了大幅改进...
越来越多的文献将大语言模型(LLMs)用作合成参与者,以在社会科学中生成成本效益高且几乎即时的响应。
由于可再生能源作为传统能源的替代品的使用率上升,尤其是太阳能,人们对研究…的兴趣日益增长。
Large Language Models(LLMs)的成功已经证明,通过模型容量和数据集规模的共同提升来扩展计算,是主要的驱动因素……
内镜在医学影像中至关重要,用于诊断、预后和治疗。开发一个稳健的动态 3D 重建流水线用于内镜视频……
当前对多模态模型的研究面临一个关键挑战,即提升生成能力往往会以牺牲理解能力为代价,反之亦然……
多模态大型语言模型(mLLMs)常用于在结构化数据中回答问题,例如 Markdown 表格、JSON 和图像。虽然这些模型……
本文介绍了 RaCo,一种轻量级神经网络,旨在学习稳健且多功能的关键点,适用于各种 3D 计算机视觉任务。Th...
Low-resource languages 在 Natural Language Processing 任务(如 lemmatization 和 part-of-speech (POS) tagging)中带来持续的挑战。本文 inves...
现有的 3D 开放词汇场景理解方法大多强调将来自 2D 基础模型的语言特征蒸馏到 3D 特征场中,但大...
视觉类比学习通过示范而非文本描述实现图像操作,使用户能够指定不同的复杂转换。
大型语言模型在许多复杂推理任务上表现出色,但它们在需要组合推理的基准测试中准确率会急剧下降。
Semantic Ablation:为什么 AI 写作显得通用且乏味 定义:Semantic ablation 是对高熵信息的算法侵蚀。这不是一个“bug”……
“感知器有许多局限……最严重的是它无法学习即使是最简单的非线性函数。”——Marvin Minsky 让人困惑的问题……
评估预测 当使用 machine‑learning 模型——尤其是在 supervised‑learning 环境中——验证是直接的:你可以衡量模型的……
印度企业集团Adani Group宣布将在未来十年投资1000亿美元,在印度各地建设以AI为重点的数据中心,使用可再生能源供电……
概览:Recraft V4 现已在 AI Gateway 上提供。它是一款面向专业设计和营销使用场景的 text-to-image 模型,开发时参考了…
本研究调查了通过截断对潜在空间进行正则化对深度学习分类器生成的测试输入质量的影响。
印度IT巨头Infosys宣布与Anthropic合作,开发企业级AI代理。此次合作将整合Anthropic的Claude模型……
联邦学习(Federated Learning,FL)使得在多个客户端之间进行分布式训练成为可能,而无需集中式数据共享;与此同时,图神经网络(Graph Neural Networks,GNNs)用于建模关系……
我们介绍 SecCodeBench-V2,这是一个公开发布的基准,用于评估大型语言模型(LLM)副驾驶在生成安全代码方面的能力。SecCodeB...
TL;DR:Aivolut AI Book Creator 的终身 Starter Plan——一款帮助策划、撰写并为 Amazon KDP 准备图书的工具——现特价 $118.99(原价 $696)。W...
大型语言模型(LLMs)正在改变编码范式,被称为 vibe coding,然而合成算法上复杂且稳健的代码仍然是一个挑战。
这个工具在网上引起了相当大的轰动——甚至据说导致 Mac Mini 销量激增。那么它到底是什么?基本上,它是为你的 AI 配备的“手”——一种让它能够 i...
概述 企业AI公司 Cohere 在印度 AI 峰会期间推出了一个新的多语言模型系列,称为 Tiny Aya。这些模型是...
引言 深度学习模型每年都变得更大、更强大。从移动视觉系统到大型语言模型,参数的数量……
AI agent 的 hype 真实存在。大家都在构建它们,大家都在谈论它们,而大多数都是垃圾。我一直在密切关注这个领域,以下是……
我们提出 SCENE(Self-Centering Noncoherent Estimator),一种无需导频且相位不变的聚合原语,用于空中联邦蒸馏(OTA-FD)……
当帮助变成问题时,想象一下,你的首要指令、整个存在的目的、使命以及终身目标都是尽可能地提供帮助……
markdown FunctionGemma:Fine‑Tuning for Tool Selection Ambiguity 日期:2026年1月16日 在Agentic AI的世界中,调用工具的能力是将……
科技兄弟们可能在德里表现出更多谦逊——但他们会让 AI 更安全吗? 2小时前 Zoe Kleinman,Technology editor !一名戴着黑色背包的男子…
项目概述 我的曾祖父 Reuben P. Box 是北加州的 US Forest Ranger,我拥有他 1927‑1945 年的每日工作日记——通过 t...
一项题为 SKILLSBENCH 的大规模新研究刚刚发布,对于所有构建或使用 AI agents 的人来说都是必读。随着 large language models LLMs 的演进……
作者 - Xiangyi Li https://arxiv.org/search/cs?searchtype=author&query=Li,+X - Wenbo Chen https://arxiv.org/search/cs?searchtype=author&query=Chen,+W - Yimin L...
作者:Xiangyi Li https://arxiv.org/search/cs?searchtype=author&query=Li,+X, Wenbo Chen https://arxiv.org/search/cs?searchtype=author&query=Chen,+W, Yimin Liu ht...
加入 Turing Labs – 创始 GTM Sales Hacker 你有没有想过,为什么你最喜欢的番茄酱总是味道相同?其实并不是。配方一直在不断调整,因为……
我们引入了 Sphere Encoder,这是一种高效的生成框架,能够在一次前向传播中生成图像,并且能够与多步扩散模型竞争……
虽然 learned representations 是 neural networks 成功的基础,但它们的基本属性仍然了解不足。一个显著的例子是…
Large language models (LLMs) 正日益在 privacy-critical 和 personalization-oriented 场景中部署,然而 context length 在塑造 prior 方面的作用……
许多化学和科学中的generative tasks涉及对group symmetries(例如permutation和rotation)不变的distributions。常见的策略是强制……
生物制药创新已发生转变:许多新药资产现在来源于美国以外的地区,主要通过地区性的非英语渠道披露。
Neurosim 是一个快速、实时、高性能的库,用于模拟诸如动态视觉传感器、RGB相机、深度传感器和惯性传感器等传感器……
Diffusion language models 是一种有前景的替代 autoregressive models 的方案,因为它们在更快生成方面具有潜力。在离散 diffusion approaches 中……
本文提出了一种基于对大语言模型(LLMs)进行参数高效微调的文本风格迁移(TST)新方法。针对稀缺…