[Paper] ToTMNet:FFT 加速的 Toeplitz 时序混合网络用于轻量化远程光电容积描记
远程光电容积描记(rPPG)从普通摄像头捕获的面部视频中估计血容量脉冲(BVP)波形。虽然最近的深度模型 i...
远程光电容积描记(rPPG)从普通摄像头捕获的面部视频中估计血容量脉冲(BVP)波形。虽然最近的深度模型 i...
语言模型在广泛的任务上已经变得非常有效,从数学问题求解到开放域问答。然而,它们仍然会犯错误,...
Direct Preference Optimization (DPO) 最近通过提升视觉保真度和文本对齐,改进了文本到视频(T2V)生成。然而,当前的方法…
音视频联合生成已经快速发展,但仍然存在重大挑战。非商业方法仍然存在音视频不同步的问题,...
类别不平衡显著降低分类性能,但其影响很少从统一的理论视角进行分析。我们提出一个原则……
数字化、网络化的医疗承诺更早的检测、精准治疗和持续护理;然而,它也扩大了隐私泄露的风险和…
随着世界模型在 Embodied AI 中获得动力,越来越多的工作探索使用 video foundation models 作为预测性世界模型,以用于下游 embo...
我们提出了 LLMberjack,一个基于现有辩论(最初以 reply trees 结构)创建多方对话的平台。该系统提供……
大型语言模型(LLMs)在预训练期间编码了大量的参数化知识。随着世界知识的演变,有效的部署越来越依赖……
卫星持续产生海量数据,尤其是用于地球观测,包括卫星图像时间序列(SITS)。然而,大多数深度学习...
代表用户与图形界面交互的 GUI 代理代表了实用 AI 助手的一个有前景的方向。然而,训练此类代理……
Issue Tracking Systems (ITSs) 使软件开发人员和管理者能够协作收集和解决问题。虽然研究人员已经广泛分析了……
在异构且动态的 Cloud‑Edge 基础设施上部署基于微服务的应用程序(MSAs)需要在冲突的目标之间进行平衡,例如故障……
自动血液形态分析可以在低收入和中等收入国家(LMICs)支持血液学诊断,但仍然对 dataset shifts 敏感……
障碍问题的最优控制在广泛的应用中出现,由于其非光滑性、非线性以及bilevel结构,计算上具有挑战性。
PSO‑X 框架整合了数十个已被提出用于使用粒子群优化求解单目标连续优化问题的模块。
语言模型经常表现出倾向于使用输入中特定位置的信息,而不考虑语义相关性。虽然位置偏差已经…
最近,人们在开放和知识密集型任务中经历了痛苦,并日益意识到LLMs的不可靠性差距,因此转向搜索增强……
为减轻大型语言模型(LLMs)中的幻觉,我们提出了一个聚焦于提示引发错误的框架。我们的方法扩展了链式 k...
Large Multimodal Models (LMMs) 已展示出在通过 Chain-of-Thought (CoT) 进行视频推理方面的惊人能力。然而,它们推理的鲁棒性…
现有的 GPU 共享技术,包括空间共享和时间共享,旨在提高利用率,但在同时确保满足 SLO 方面面临挑战。
生成模型在离散数据(文本)的自回归方法和连续数据(图像)的扩散方法之间的分叉阻碍了……
随着自动驾驶系统(ADS)向商业部署迈进,人们对确保其安全性和可靠性的关注日益增加。虽然考虑…
在运营技术(OT)环境中,容器化应用程序通常需要提升的权限,以访问低层网络接口或执行管理……