[Paper] 通过个体层面策略多样性释放差分进化的潜力
由于差分进化(DE)对策略选择非常敏感,现有的大多数变体通过自适应机制或复杂设计来追求性能。W...
由于差分进化(DE)对策略选择非常敏感,现有的大多数变体通过自适应机制或复杂设计来追求性能。W...
虽然最近的视频扩散模型(VDMs)产生了视觉上令人印象深刻的结果,但它们在保持3D结构一致性方面根本存在困难,往往导致……
共享自治系统需要原则性方法来推断用户意图并确定适当的辅助水平。这是人类...的核心挑战。
开放集目标检测(Open-set object detection,OSOD)在推理时定位对象的同时,识别并拒绝未知类别。虽然最近的 OSOD 模型在基准测试中表现良好……
我们提出一种在函数空间中针对逆PDE问题的数据高效、物理感知的生成框架。现有的 plug‑and‑play diffusion posterior samplers …
Diffusion Large Language Models(DLLMs)提供了一种有吸引力的替代方案,相较于 Auto‑Regressive 模型,但它们的部署受到高解码成本的限制。 在 ...
Astronomical imaging 在实际 observing constraints 下仍然是 noise‑limited 的,而 standard calibration pipelines 主要去除 structured artifacts 和 le...
本文提出了一种新颖的逆强化学习框架,使用基于扩散的自适应前瞻规划器(IRL-DAL)用于自动驾驶车辆。训练……
尽管基于语言模型的自主 AI 科学家取得了快速进展,生成可用于出版的插图仍然是一个劳动密集型的瓶颈。
我们提出了一种引导式随机采样方法,在扩散模型的采样过程中加入了基于物理的指导,来源于偏微分方程。
Muon优化器通过执行矩阵级别的梯度(或动量)正交化,在预训练大型语言模型方面展示了强大的实证性能。
最近关于 language identification 和 generation 的研究已经确定了实现这些任务的紧密统计速率。这些工作通常…
在大型 repositories 中进行 software issue resolution 是一个长期的决策过程:在 localization 期间做出的选择会塑造可行 edits 的空间,而失误……
大型音频语言模型日益直接处理原始语音输入,使其能够在语音助手、教育等领域实现更无缝的整合……
仓库级代码补全对大型语言模型(LLMs)仍然具有挑战性,因为存在跨文件依赖和有限的上下文窗口。先前的工作添加了……
视觉语言模型在领域迁移下性能下降,限制了其在真实世界中的适用性。现有的测试时适应方法在计算上……
Model comparison 和 calibrated uncertainty quantification 通常需要对参数进行积分,但对于复杂的、多…
Vision-language models (VLM) 在标准视频理解基准上表现出色,但在简单推理任务上系统性地失败……
我们提出了一种变分框架,将 transformer 层解释为在 token 嵌入上进行的优化算法的迭代。在这种视角下,self-
近年来,大型语言模型(LLMs)在信息检索方面取得了快速进展,但现有研究主要集中在文本或静态多……
虽然多agent系统在通过专门化处理复杂任务方面显示出潜力,但同时finetuning多个agent面临两个关键挑战:(...)
现有用于长视频理解的 multimodal large language models 主要依赖 uniform sampling 和 single-turn inference,限制了它们的能力 …
语言模型(LMs)在令牌序列上进行训练,而用户通过文本与语言模型交互。这种不匹配导致了 partial token problem,whi...
虽然密集的像素级标注仍然是医学图像分割的黄金标准,但获取成本高且限制了可扩展性。相比之下,许多 d...