[Paper] vLLM-Omni:完全分离式服务,支持任意到任意多模态模型
Any-to-any multimodal models 能够同时处理文本、图像、视频和音频,代表了多模态 AI 的重要进展。然而,它们复杂的架构……
Any-to-any multimodal models 能够同时处理文本、图像、视频和音频,代表了多模态 AI 的重要进展。然而,它们复杂的架构……
TriCloudEdge 是一个可扩展的三层云连续体,集成了 far‑edge 设备、intermediate edge 节点和 central cloud 服务,并行工作……
冠状动脉狭窄是心血管疾病的主要原因之一,通过分析多视角血管造影中的冠状动脉进行诊断。虽然 nu...
自动驾驶车辆缺乏与其他道路使用者的自然沟通渠道,这使得外部人机界面(eHMIs)在传达意图方面变得至关重要……
对大型语言模型(LLM)的爆炸性需求常常导致用户查询在服务器队列中积压,需要高效的路由(query‑LLM matching)和调度(query priority…)。
多模态基础模型整合跨模态的异构信号,但它们的预测如何依赖于特定的内部……
超快在线学习对于高频系统至关重要,例如 quantum computing 和 nuclear fusion 的控制,其中适应必须在 sub...
在 Internet-of-Things 系统中,federated learning 通过实现 parallel policy training 而无需共享 raw data,推动了 online reinforcement learning (RL) 的发展……
基于图的检索增强生成(GraphRAG)将外部知识组织为层次化图结构,实现对分散知识的高效检索和聚合。
Text-to-image diffusion models 已经彻底改变了 generative AI,实现了高质量和 photorealistic 的图像合成。然而,它们的实际部署 …
扩散模型最近作为贝叶斯逆问题(BIPs)的强大学习先验出现。基于扩散的求解器依赖于假设的似然函数……
relational data 的日益可获得性促使人们对 complex systems 的 network-based representations 越来越依赖。随着时间的推移,这些模型…
对具备代理性的语言模型(Agentic Large Language Models)的期望不仅仅是正确回答,还要求它们具备设定目标和决定探索内容的自主性。我们将此称为 i...
广告图像生成越来越关注在线指标,如点击率(CTR),但现有方法采用“一刀切”的策略……
我们通过尺度空间理论在 wavelet transforms 与 spiking neural networks 之间建立了理论联系。我们依赖于尺度协变的保证……
近期的基因组基础模型在很大程度上采用大型语言模型架构,将DNA视为一维 token 序列。然而,穷尽的...
大型推理模型(LRMs)常常出现过度思考的现象,即在已经得到正确答案后仍生成冗余的推理步骤……
World models 已经在自动驾驶的数据合成方面展示了显著的潜力。然而,现有方法主要集中在单模态……
从稀疏图像重建3D场景仍然是一项具有挑战性的任务,因为在没有优化的情况下难以恢复准确的几何形状和纹理。R...
Neuromorphic 硬件实现的 Spiking Neural Networks (SNNs) 通过稀疏、事件驱动的计算,承诺实现能效高、低延迟的 AI。然而,...
跨分区边在分布式 GNN 训练中的成本占主导:每次迭代获取远程特征和激活会使网络负荷过重,因为图 ...
Federated Unlearning (FU) 旨在高效地从联邦模型中移除特定客户端数据的影响,同时保持对其余客户端的效用。
基于遗传编程的特征构造近年来取得了显著成功,作为一种自动化机器学习技术,用于提升学习 p...
我们提出一种神经形态求解器,用于解决 NP-hard Edge User Allocation 问题,采用具有 Winner-Takes-All (WTA) 机制的吸引子网络实现 …