[Paper] Harmony:通过跨任务协同实现音频与视频生成的和谐
同步音视频内容的合成是生成式 AI 的关键挑战,开源模型在实现稳健的音视频对齐方面面临困难……
3376 posts from this source
同步音视频内容的合成是生成式 AI 的关键挑战,开源模型在实现稳健的音视频对齐方面面临困难……
高质量的 AI 生成音频的可用性带来了安全挑战,例如错误信息宣传活动和语音克隆欺诈。针对…的关键防御是…
自动标志点检测为医疗专业人员提供了一种高效的方法,以利用术中了解患者的解剖结构和定位。
对抗性攻击对基于学习的 3D 点云模型构成了重大威胁,严重削弱了它们在安全敏感应用中的可靠性。
Large language model (LLM)-based multi-agent systems 已经成为一种强大的范式,使 autonomous agents 能够解决复杂任务。随着这些系统…
在一个以快速技术进步和复杂全球挑战为特征的时代,responsible foresight 已成为政策制定者的关键框架……
如果语言模型在专业情境中无法可靠地披露其 AI 身份,用户就无法信任其能力边界。本研究考察了自我透明…
大型语言模型(LLMs)在回答改写后的问题时常表现出不一致的行为,这表明它们更依赖于表层模式而不是…
环肽是针对细胞内位点的有前景的模态;然而,细胞膜渗透性仍然是一个关键瓶颈,并因有限的……而加剧。
Illumination inconsistency 是多视角 3D 重建中的一个根本性挑战。阳光方向、云层覆盖以及阴影的变化会破坏一致性……
本研究提出了一种基于多尺度时间对齐网络(MSTAN)的风险预测方法,以应对时间不规则性、采样...
我们考虑 strategic classification 问题,其中部署 classifier 的行为会导致 strategic behaviour,从而在 s 上产生 distribution shift ...
Vision Language Action 模型通过利用大规模预训练的视觉和语言表征,显著推动了通用机器人操作的进步。
区块链安全受到自私挖矿的威胁,自私挖矿是指矿工(运营者)偏离协议以增加其收入。自私挖矿会加剧……
Human activity recognition (HAR) from inertial sensors is essential for ubiquitous computing, mobile health, and ambient intelligence. Conventional deep models ...
Reward feedback learning(ReFL)已被证明在将图像生成与人类偏好对齐方面有效。然而,将其扩展到视频生成面临…
现实世界的数据,例如在气候应用中,通常由空间网格化时间序列数据或具有类似结构的数据组成。虽然其底层…
多层快速多极算法(MLFMA)中的近场(P2P)算子由于内存局部性差,在 GPU 上成为性能瓶颈。本文工作…
Bangla Sign Language Translation (BdSLT) 迄今为止受到严重限制,因为该语言本身资源极其匮乏。标准的句子级数据集创建……
获得强化学习的安全保证是实现其在真实世界任务中可应用性的重大挑战。安全盾牌扩展了标准的强化学习框架,以提供额外的安全保障。
阿尔茨海默病是一种导致认知功能下降的衰弱性疾病。及时识别该疾病对于疾病的早期干预和治疗方案的开发至关重要。
网络分析中的一个基本理论问题是确定在什么条件下,社区恢复在随机块模型(Stochastic Block Model)中可以在多项式时间内实现。
近期在 foundation models 方面的进展在 natural language processing 和 computer vision 等领域显示出巨大前景,类似的努力现在正在…
验证性能的关键限制在于错误检测的能力。基于这一直觉,我们设计了几种悲观验证的变体……
抗核抗体(ANA)检测是诊断自身免疫性疾病(包括系统性红斑狼疮、干燥综合征和硬皮病)的关键方法。尽管它的…
Unlike text, speech conveys information about the speaker, such as gender, through acoustic cues like pitch. This gives rise to modality-specific bias concerns.... 不同于文本,语音通过音高等声学线索传递关于说话者的信息,例如性别。这导致了特定模态的偏见问题……
基于Transformer的模型已成为各种机器学习任务的最新技术工具,包括时间序列分类,但它们的复杂性使得 …
在边缘设备上部署 Transformer 模型受到延迟和能耗预算的限制。虽然 INT8 量化能够有效加速主要的矩阵乘…
本研究提出了 **Tool‑RoCo**,这是一种基于 **RoCo**(一个多机器人协作平台)的新基准,用于评估大型语言模型(LLM)在长期多智能体合作中的表现。
在过去的二十年里,针对单一语言(例如 C、C++、Java、Rust、Python 等)的验证工具的研发投入了大量的研究与开发工作。这些工具往往专注于特定语言的语义和特性,提供形式化验证、模型检查、符号执行等技术,以帮助发现程序中的错误、漏洞或不符合规范的行为。随着软件系统的规模和复杂性不断提升,跨语言的交互与集成也日益普遍,这促使研究者开始探索能够同时支持多种语言的通用验证框架和工具链,以实现更广泛的代码安全与可靠性保障。
深度伪造检测方法的有效性往往不太取决于其核心设计,而更取决于实现细节,例如数据预处理、增强……
我们提出了 Cross-Attention-based Non-local Knowledge Distillation (CanKD),一种利用 cross-attention 的新型基于特征的知识蒸馏框架。
将光电容积描记(PPG)和球体心动描记(BCG)等非侵入性信号转换为临床有意义的信号,如动脉血压……
我们提出了一种新颖的训练方法 Merge-and-Bound (M&B),用于类别增量学习 (CIL),该方法直接在参数空间中操作模型权重,以实现高效且稳健的增量学习...
Vision Transformers 在各种计算机视觉任务中表现出卓越的性能,但它们相对于 token 的二次计算复杂度……
最近,视频生成取得了快速进展,越来越多的关注集中在移动设备上的图像到视频(I2V)合成上。然而,子...
神经代理在汽车空气动力学中的广泛使用,得益于诸如 DrivAerML 和 DrivAerNet++ 等数据集,主要集中在钝体……
可读性评估旨在评估文本的阅读难度。近年来,深度学习技术已逐步应用于可读性……
空间认知是现实世界多模态智能的基础,使模型能够有效地与物理环境交互。虽然多模态 ...
我们研究两层神经网络,并使用一种基于粒子的算法——共识优化(CBO)进行训练。我们比较了 CBO 在……方面的表现。
集成学习通过组合多个基分类器来提升分类性能。虽然增加分类器的数量通常会提升准确率……
It looks like the text you’d like translated is incomplete. Could you please provide the full passage (including the “> **Source:** …” line at the top) so I can translate it accurately while preserving the required formatting?
事件相机产生的异步事件流在空间上稀疏,但在时间上密集。主流的 event representation learning algorithms 通常…
模型合并将多个 fine-tuned checkpoints 合并为单一模型,无需额外训练,提供了一种重新使用模型并提升效率的有吸引力的方法。
大规模专家混合(Mixture of Experts,MoE)模型的训练面临着由于动态 token 路由导致的严重负载不平衡而产生的关键内存瓶颈。Thi...
我们提出了一种新颖的无监督框架,用于从连续的工业视频流中解锁海量未标记的人类示范数据,以用于 Vision-Language-Action ...
3D 重组是一个基本的几何问题,近年来它越来越多地受到深度学习方法的挑战,而不是传统的优化方法。
遥感变化描述是一个新兴且受欢迎的研究任务,旨在用自然语言描述已发生变化的感兴趣内容……