[Paper] 提升黑盒少样本知识蒸馏的多样性
Knowledge distillation (KD) 是一种广为人知的技术,能够在几乎不牺牲性能的情况下,将大型网络(teacher)有效压缩为更小的网络(student)……
Knowledge distillation (KD) 是一种广为人知的技术,能够在几乎不牺牲性能的情况下,将大型网络(teacher)有效压缩为更小的网络(student)……
知识蒸馏(KD)是将复杂教师网络的专业知识转移到高效学生模型中的关键机制。然而,在去中心化…
Google 翻译新增发音练习。Google 正在庆祝 Translate 20 周年,通过推出发音练习,公司称这是一项…
关节建模旨在推断3D对象的可移动部件及其运动参数,从而实现交互式动画、仿真和形状编辑。在……
指令式代码编辑是大型语言模型(LLMs)的一个重大挑战。在 EditBench 基准测试中,40 个评估模型中有 39 个实现了任务成功……
源代码及其伴随的注释是互补且自然对齐的模态——代码编码结构逻辑,而注释捕捉开发者意图……
时间序列分类是跨多个领域的重要分析任务。然而,由于标签的稀缺,它的实际应用常常受到阻碍。
TL;DR - Google 正在开发…
TL;DR - Android Authority 拆解。
引言 这是我的第一篇帖子,所以直接说重点:x402 代理经济正蓬勃发展,但其中大多数服务都是垃圾。我知道这听起来……
nvidia/NV-Raw2Insights-US 已更新3天前...
扩展的合作伙伴概览 今天,OpenAI 与 AWS 正在扩大我们的战略合作伙伴关系,以帮助企业在其 AWS 环境中使用 OpenAI 能力进行构建……
在 Spark 中,自定义 policy-learning 流水线因两个耦合系统的原因而失败:逐行 Python 执行使推断变得不切实际,以及 driver-side 候选 …
研究概述:研究人员使用来自 Internet Archive 的数据发现,自2022年以来创建的三分之一网站是 AI‑generated,依据……
April 16, 2026 在快速演变的大型语言模型 LLMs 领域,预训练仅是第一步。要将基础模型转变为专用模型……
万物互联 (IoE) 代表了物联网 (IoT) 的演进,通过将人、数据、流程和事物整合到一个统一的智能体系中……
Beagle framework 通过 GPU-based Genetic Programming,实现了先前因 CPU 限制而在实际时间范围内无法实现的人口动态。
统一的多模态模型通常依赖预训练的视觉编码器,并为理解和生成使用不同的视觉表征,从而导致误…
近期的 video foundation models 展示了令人印象深刻的 visual synthesis,但常常出现 geometric inconsistencies。虽然现有方法尝试…
Shot Boundary Detection(SBD)旨在自动识别镜头切换并将视频划分为连贯的镜头。虽然SBD在文献中被广泛研究……
Adaptive programming practice 通常依赖于 fixed libraries 的 worked examples 和 practice problems,这需要大量的创作工作,并且可能无法…
虽然 binary classification 在 VC dimension 下的最优 sample complexity 已经得到充分确立,但确定 multiclass classification 的最优 sample complexity …
我们研究从多个思考者那里获得链式思考(Chain-of-Thought, CoT)监督的学习,这些思考者都提供正确但可能系统性不同的解答,例如……
Specification-guided reinforcement learning (RL) 为编码复杂、时间延伸的任务提供了一种基于形式规范的原则性框架。
印尼电商平台的评论将标准词汇与俚语、地区借词、数字简写和 emoji 混合在一起,使得 lexicon-based sentiment tools 难以……
单目RGB相机安装在无人机上被广泛用于野生动物监测,但大多数分析管道仍局限于二维图像空间,l...
每个 Transformer 架构都投入巨大的容量来学习语义嵌入空间中的丰富表征——然而所作用的旋转流形……
将高效的Transformer组件与线性序列建模块相结合的混合序列模型是对纯Transformer的有前景的替代方案,但……
使用数据并行随机梯度下降训练大型神经网络时,会分配 N 个 GPU 副本来计算基本相同的更新——这种做法...
基于学习的控制技术利用过去轨迹的数据来控制具有不确定动力学的系统。然而,基于学习的控制器往往计算量大……
大型语言模型被广泛用于代码生成,但它们依赖于一个隐含的假设,即任务描述足够详细且良好……
大型语言模型(LLMs)正被越来越多地部署,但它们的输出对用户在提问时的常规、非对抗性表述变化极其敏感……
基于大语言模型(LLMs)的应用,例如多代理仿真,需要代理之间的人口多样性。我们发现了一种普遍的失败……
具备主动性的人工智能系统有望加速科学工作流程,但神经影像学面临独特挑战:异构的模态(sMRI、fM…)。
自主 AI 代理即使保持完全授权,也可能因行为漂移、对手适应以及决策模式转变而变得不安全,即使没有任何代码更改……
大型语言模型(LLMs)在通用代码生成方面表现强劲,但它们在企业领域特定语言(DSL)上的适用性仍然……
本文研究了信息来源的可信度是否会影响土耳其语的证据形态学,以及大型语言模型(LLMs)是否能够捕捉这种敏感性。我们……
针对韩国天气预报员的实用(multimodal)large language model助手的开发受到缺乏多维、exper…的阻碍。
从文本即时创建丰富的 360 度全景世界的梦想正迅速成为现实,然而在我们可靠地实现……方面仍存在关键的差距。
本地小语言模型(SLMs)承诺为移动用户提供完全离线、私密的 AI 体验(无需云端依赖,数据不离开设备)。但是否……
统一的多模态理解/生成模型通过将细粒度理解融入其Chain‑o…,展示了改进的图像编辑性能。
自动代码审查(ACR)机器人在工业软件开发中被越来越多地使用,以帮助开发人员在拉取请求(PR)审查期间进行辅助。随着采用率的提升……
FedRAMP 中等授权概览 OpenAI 已获得 FedRAMP 20x 中等授权 https://www.fedramp.gov/marketplace/products/FR2533155773/ 用于 Ch...
大卫·西尔弗拥有一家价值十亿美元的新公司,旨在打造 AI “superlearners”。...
LLM-guided evolutionary search 已成为自动算法发现的有前景范式,然而大多数系统主要通过 e...
recurrent neural networks、polynomial ODEs 和 discrete polynomial maps 各自为计算带来了什么,它们缺乏什么?All three operate over the co…
多代理 LLM 辅导系统通过代理专门化提升响应质量,但每个学生查询会触发多个并发的 API 调用,其延迟...