· ai
[Paper] 弧形梯度下降:一种基于数学推导的梯度下降重新表述,具备相位感知、用户可控的步长动态
本文介绍了 ArcGD 优化器的公式化、实现和评估。评估最初在一个非凸基准函数上进行……
本文介绍了 ArcGD 优化器的公式化、实现和评估。评估最初在一个非凸基准函数上进行……
我们报告了一种单色多任务衍射网络架构,利用照明相位复用来动态重新配置其输出功能……
循环神经架构如 LSTM 和 GRU 在序列建模中仍被广泛使用,但它们仍面临两个核心限制:冗余的门…
在大型语言模型(LLMs)时代,检索增强生成(RAG)架构因其能够将语言……
Instruction-based image editing 已成为一个重要的研究领域,受益于 image generation foundation models,已经实现了高水平的美学效果……
实时分块(RTC)使视觉‑语言‑动作模型(VLAs)能够通过异步预测动作块,生成平滑、响应迅速的机器人轨迹……
强化学习 (RL) 已成为微调大型语言模型 (LLMs) 以解决涉及推理任务的事实标准。然而,越来越多的证据表明,模型 tra...
水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...
视觉语言模型(VLMs)在视觉问答(VQA)中取得了强劲的表现,但它们仍受限于静态的训练数据。检索…
基于大型语言模型(LLMs)的生成式搜索引擎正在取代传统搜索,根本改变了信息提供者的补偿方式……
在本工作中,我们研究了 kernel regularity 与 algorithmic performance 在 RKHS 函数的 bandit optimization 中的关系。虽然 reproduci...
视觉语言模型(VLMs)展现出卓越的常识和语义推理能力。然而,它们缺乏对物理动态的扎实理解。