[Paper] 研究在音频深度伪造检测背景下使用多模态大型语言模型的可行性
虽然视觉语言模型(VLMs)和多模态大语言模型(MLLMs)在检测图像和视频深度伪造方面表现出强大的泛化能力,但它们的…
虽然视觉语言模型(VLMs)和多模态大语言模型(MLLMs)在检测图像和视频深度伪造方面表现出强大的泛化能力,但它们的…
投资组合优化是所有主要金融机构开展的任务。基数约束均值-方差投资组合优化(Cardinality Constrained Mean-Variance Portfolio Optimization,CCP)...
结构化形状补全将缺失的几何体恢复为基元,而不是无结构点,这使得基元驱动的表面重建成为可能。 In...
大型语言模型(LLMs)已成为许多日常应用的主流。然而,随着数据的演变,它们的知识很快就会过时。持续…
随着自主 AI 代理从代码补全工具转变为能够大规模打开拉取请求(PR)的完整团队成员,软件维护者 fa...
评估足球中的无球防守表现具有挑战性,因为传统指标无法捕捉限制对手的细微协同动作……
最先进的大型语言模型(LLM)流水线依赖于自举推理循环:采样多样的思考链,并强化得分最高的……
将符号约束集成到深度学习模型中可以使它们更具鲁棒性、可解释性和数据效率。尽管如此,这仍然是一个耗时的…
在强化学习中,离策略 actor-critic 方法使用时序差分更新来训练 critic,并将其作为策略(actor)的学习信号……
识别相关文本片段对于自然语言处理(NLP)中的多个下游任务非常重要,因为它有助于模型可解释性。虽然大多数片段识别方法……
手写的 STEM 考试捕捉开放式推理和图示,但人工评分速度慢且难以规模化。我们提出了一种端到端的工作流用于评分……
我们提出一个强化学习(RL)框架,用于线性求解器的自适应精度调节,并且可以扩展到通用算法。该框架是 …
深度神经网络在制造业中自动化各种视觉质量检测任务方面显示出巨大的潜力。然而,它们的适用性在…
Vision-Language Models 已经在医学图像分析和疾病诊断中展示了强大的潜力。然而,在部署后,它们的性能可能…
在数字成像中,图像去马赛克是一个关键的第一步,它从颜色滤光阵列(CFA)中恢复RGB信息。通常,深度学习被…
使用 transformer 进行长期时间序列预测受到自注意力二次复杂度和统一切片刚性的阻碍,这可能会……
现有用于推断行人过街行为的范式,从统计模型到监督学习方法,表现出有限的泛化能力……
Ticket troubleshooting 指的是通过工单系统报告的问题进行分析和解决的过程。在大型组织提供的…
本文提出了一种遗传算法(GA)方法,用于生产线中成本最优的任务调度。系统由一组串行处理任务组成……
语言模型(LM)概率并不是可靠的质量评估指标,因为自然语言是模糊的。当多个输出选项都是有效的时,模型的概率……
大型语言模型(LLMs)因其高性能(例如准确率)而逐渐成为解决众多自然语言任务的突出 AI 模型……
生成奖励模型(Generative Reward Models,GRMs)因其可解释性、推理时的可扩展性以及……而在奖励建模领域受到广泛研究兴趣。
现代语言模型中的序列建模层通常在存储容量和计算效率之间面临权衡。虽然 Softmax attention …
脉冲神经网络(SNN)是对时空数据进行处理的动力系统,但它们的可学习参数通常仅限于突触权重,...