[Paper] ProEdit:基于反演的编辑,从 Prompt 正确实现
基于逆向的视觉编辑提供了一种有效且无需训练的方式,根据用户指令编辑图像或视频。现有方法通常……
基于逆向的视觉编辑提供了一种有效且无需训练的方式,根据用户指令编辑图像或视频。现有方法通常……
云事件在生产环境中带来重大运营挑战,未解决的生产云事件平均每小时成本超过 200 万美元。先前的研究……
神经网络剪枝被广泛用于降低模型规模和计算成本。然而,大多数现有方法将稀疏性视为外部强加的约束。
Multi-object tracking 旨在通过关联跨视频帧的检测来随时间保持对象身份。文献中存在两种主导范式:tr...
多模态回归旨在从异构输入源预测连续目标,通常依赖于早期或后期融合等融合策略……
使用 AI 代理自动化端到端数据科学流水线仍然卡在两个瓶颈上:生成有洞察力、多样化的可视化证据,以及将其组装成连贯的叙事。
评估各种模型架构的性能,例如 transformer、大型语言模型(LLMs)以及其他 NLP 系统,需要全面的 ben...
最近的方法已经展示了使用 diffusion models 生成交互式和可探索世界的前景。然而,这些方法中的大多数面临着…
Scaling law 是 Large Language Model (LLM) 开发的基石,预测随着计算资源的增加,模型性能会提升。Ye...
基于大语言模型的代理最近在需要长期交互的真实软件工程(SWE)任务中展示了强大的潜力……
我们考虑在数据驱动的线性动力学模型中恢复线性守恒律的问题。给定一个学习得到的算子 widehat{A} 和一个满秩约束……
投影梯度下降(Projected Gradient Descent,PGD)是一种强大且广泛使用的一阶对抗攻击,但其计算成本扩展性差,因为所有训练样本 u...
能源消耗决定了部署大型语言模型的成本和环境影响。本文研究了片上 SRAM 大小和 op...
实时、流式交互式化身是数字人研究中的关键且具有挑战性的目标。虽然基于 diffusion 的人类化身生成…
自然语言处理(NLP)系统正日益被用于医疗保健、金融和政府等敏感领域,在这些领域它们处理大量…
现代学习系统的稳定性分析常常基于平滑性假设,而这些假设被 ReLU 类型的非线性所违反。在本说明中,w...
本卷收录了2025年6月20日在法国里尔举办的可适应云架构研讨会(Workshop on Adaptable Cloud Architectures,WACA 2025)的后续论文集,会议与……同址举行。
GUI 代理的开发可能会彻底改变下一代人机交互。受此愿景的激励,我们提出了 MAI-UI,一个 … 系列。
基于提示的 Video Segmentation Foundation Models(VSFMs),如 SAM2,正日益在自动驾驶和数字病理等应用中部署,……
Binary program analysis 在系统安全中仍然非常重要。二进制代码分析已经取得了许多实际成果,但细粒度分析仍然……
大规模混合专家(Mixture-of-Experts,MoE)模型依赖专家并行来实现高效的训练和推理,这种方式将专家划分到不同设备上,并且需要……
联邦微调(Federated Fine-Tuning,FFT)因其能够利用服务器端和客户端的数据来提升全局模型的泛化能力,同时保持……
Hit identification 是药物发现流程中一个关键且资源密集的步骤,传统上依赖于对大规模化合物的 high-throughput screening …
在持续学习(Continual Learning, CL)中,一个根本性的挑战是灾难性遗忘,即在适应新任务时会导致先前任务的性能下降。虽然……