[Paper] Uber、Ola 和 Rapido 的票价比较应用
在当今不断发展的世界中,拥有像Ola、Uber和Rapido这样的优质叫车服务非常重要,因为它们对我们的日常出行至关重要。...
3337 posts from this source
在当今不断发展的世界中,拥有像Ola、Uber和Rapido这样的优质叫车服务非常重要,因为它们对我们的日常出行至关重要。...
Network Interface Cards (NICs) 是现代互联网的关键推动因素之一。它们充当将计算设备连接到网络的网关,用于...
现代深度学习模型需要巨大的计算资源,这推动了对低精度训练的研究。量化训练通过……
手语生成(Sign Language Production,SLP)是将复杂的输入文本转换为真实视频的过程。大多数以往的工作集中在 Text2Gloss、Gloss2Pose 等方面,……
在民主制度中,重大政策决定通常需要某种形式的多数或共识,因此精英必须争取大众支持以执政。历史上,精英……
Watermarking 的目标是将隐藏信号嵌入生成的文本中,在获取到秘密密钥时能够可靠地检测到。Open-weight 语言模型带来…
真正的交互式世界模型需要三个关键要素:real-time long-horizon streaming、一致的spatial memory,以及精确的user control。然而,...
本论文在两个主要领域提出了新颖的贡献:提升生成模型的效率,特别是 normalizing flows,以及应用 gener...
为什么当模型在单域数据集上训练时,最先进的 OOD 检测方法会表现出灾难性失败?我们提供了第一个理论…
我们提出 Jina-VLM,这是一款拥有 2.4B 参数的视觉语言模型,在开放的 2B 规模 VLM 中实现了最先进的多语言视觉问答。The ...
本研究探讨在特定情形下,大型语言模型(LLMs)相较于传统神经网络在天文数据处理方面是否具有优势。
注意力机制是基础模型的核心,但其二次复杂度仍然是扩展的关键瓶颈。这一挑战推动了……
Quantum key distribution (QKD) 的安全性根本依赖于区分真实的 quantum correlations 与 classical eavesdropper simulations 的能力,...
随着带有外部工具的增强型大型语言模型(LLMs)在网页应用中日益流行,提升增强型 LLM 推理服务的效率……
使用差分隐私(DP)进行训练为数据集中的成员提供了一种保证,即他们不能被已发布模型的用户识别。然而,尽管如此,...
草图是人类手绘的对复杂场景和现实世界物体的简化抽象。虽然草图表示学习领域已经取得了显著的进展……
Tokenizer 适配在将预训练语言模型转移到新领域或新语言中发挥重要作用。在本工作中,我们解决了两个互补的……
将大型语言模型(LLMs)适配到低资源语言仍然是一个重大挑战,因为数据稀缺和跨语言漂移。本工作提出了一种两…
我们考虑仅使用成员查询来主动学习未知的二叉决策树的问题,这是一种学习者必须对……
Mixture-of-Experts(MoE),虽然作为大型语言模型(LLM)架构提供了显著优势,但在部署到低…
基于SMT求解器的自动化验证工具在验证复杂软件系统方面取得了显著进展。然而,这些工具面临一个根本性的……
语言模型依赖于大规模的文本语料库,这些语料库通常会进行质量过滤,而这一过程可能会无意中排除非标准的语言变体……
人工智能(AI)和深度学习(DL)的快速发展催生了多个以优化为驱动的子领域,尤其是神经…
Spiking neural networks (SNNs) 已经成为计算神经科学和人工智能领域的一个有前景的方向,提供了诸如…的优势。
Transformer 解码器在各种任务中取得了强劲的结果,但 KV 缓存所需的内存在长序列长度下变得难以承受。虽然 …
机器学习在医学早期预测方面最近表现出突破性性能,然而,过于关注提升预测准确性导致了一个 …
现代软件系统日益给传统的代码库组织策略带来压力。Monorepos 提供一致性,但往往面临可扩展性问题……
本文讨论了在分析合成基准测试和 Gromacs 软件包在 Fritz 与 Alex HPC 系统上的能效时所遇到的挑战。
近年来,关于分布式量子计算的大量研究主要集中在纠缠对和分布式双量子比特门的使用上。但也有关于 ef… 的研究。
近期在大型语言模型(LLMs)方面的发展提出了对高效且稳健训练的新需求。随着LLM集群规模的扩大,节点故障、...
本文提出了对 sigmoid 函数的形式化分析,并在 Isabelle/HOL 中给出了 Universal Approximation Theorem (UAT) 的完整机械化证明,...
Molecular Dynamics simulations 可以帮助科学家在原子尺度上获取对物理过程的宝贵洞察。本工作探讨了各种技术……
在本文中,我们提出了一种双边缘辅助的计算卸载与资源分配方案,专为空间‑空中‑海洋集成网络(SAMINs)量身定制。
新手程序员常常在错误定位方面面临挑战,因为他们的经验有限且对编程语法和逻辑的理解不足。传统的 me...
基于大型语言模型(LLM)的技术在生成程序模糊测试的 harnesses 方面取得了显著进展。然而,将它们应用于任意函数……
在 LLM 服务中,架构向 prefill/decode (PD) 解耦的转变提升了资源利用率,但在应对现代工作负载的突发性方面存在困难。
图分类是一个基础任务,涉及从分子属性预测到材料设计等多个领域。虽然图神经网络(GNN)取得了……
Vibe 编码是一种新的编程范式,人类工程师指示大型语言模型(LLM)代理完成复杂的编码任务,几乎不需要监督……
我们提出 MagicQuill V2,这是一种新颖的系统,引入了分层组合范式用于生成式图像编辑,弥合了语义……
多视角扩散模型最近作为一种强大的新视角合成范式出现,然而支撑其视图一致性的底层机制仍未被完全阐明……
强化学习(RL)最近在多模态大型语言模型(MLLMs)中引发视觉推理方面取得了显著成功。然而,现有的...
我们推出 PPTArena,这是一项用于 PowerPoint 编辑的基准,衡量在自然语言指令下对真实幻灯片进行可靠修改的能力。相比之下…
当前的视频生成技术在单镜头剪辑(single-shot clips)方面表现出色,但在生成需要灵活镜头安排、连贯性的叙事多镜头视频(multi-shot videos)方面仍然困难,……
我们调查视频生成模型是否能够展现视觉空间智能,这是一种对人类认知至关重要的能力,仅使用视觉数据。为此……
尽管视频到音频生成取得了进展,该领域主要关注单声道输出,缺乏空间沉浸感。现有的binaural方法仍然……
本文研究了涉及非保守力的拉格朗日系统的建模与控制,采用一种不需要加速度的混合方法...
我们提出 MAViD,一个用于 Audio-Visual Dialogue 理解和生成的全新 Multimodal 框架。现有方法主要关注非交互式的……
Data-driven motion priors 能够引导 agents 产生自然行为,在创建逼真的虚拟角色方面发挥关键作用。Adversaria...