[Paper] 从一对一到多对多:动态跨层注入用于深度视觉-语言融合
Vision-Language Models (VLMs) 通过使用一种粗糙、非对称的连接,仅将 vision encoder 的输出链接起来,造成了严重的视觉特征瓶颈……
Vision-Language Models (VLMs) 通过使用一种粗糙、非对称的连接,仅将 vision encoder 的输出链接起来,造成了严重的视觉特征瓶颈……
Diffusion models 已经在从丰富的多模态分布中采样方面展示了显著的经验成功。它们的推断依赖于数值求解某种…
近期在端到端自动驾驶方面的进展表明,从基础模型中提取的补丁对齐特征训练的策略在对 Out-... 的泛化能力更强。
我们研究一种半异步的客户端‑服务器感知器,通过迭代参数混合(IPM‑style averaging)进行训练:客户端执行本地感知器更新,并且 …
在长期、目标导向的交互中部署大型语言模型仍然具有挑战性,因为相似的实体和事实会在不同的潜在 …
Federated learning 使多个参与方能够在不共享各自底层数据的情况下共同训练学习模型,提供了一条实现隐私-...
Concept-based explanations 量化了高级概念(例如 gender 或 experience)对 model behavior 的影响,这对高…的决策者至关重要。
我们的研究考察生成式人工智能(GenAI)如何影响建筑概念设计任务中的绩效、创造性自我效能感和认知负荷。三十...
在不同条件下对复杂动力系统进行建模计算量巨大,常常导致高保真模拟难以实现。虽然降低…
规模定律在现代 AI 革命中发挥了重要作用,为从业者提供了预测模型性能随...提升的能力。
大型语言模型(LLM)的上下文通常通过检索增强生成(RAG)构建,其中包括对候选段落进行排序并选择 top‑k 段落……
Hierarchical reasoning model (HRM) 在各种推理任务上取得了非凡的表现,显著超越了基于 large language model 的推理方法。