[Paper] M4-RAG:大规模多语言多文化多模态 RAG
视觉语言模型(VLMs)在视觉问答(VQA)中取得了强劲的表现,但它们仍受限于静态的训练数据。检索…
视觉语言模型(VLMs)在视觉问答(VQA)中取得了强劲的表现,但它们仍受限于静态的训练数据。检索…
基于大型语言模型(LLMs)的生成式搜索引擎正在取代传统搜索,根本改变了信息提供者的补偿方式……
在本工作中,我们研究了 kernel regularity 与 algorithmic performance 在 RKHS 函数的 bandit optimization 中的关系。虽然 reproduci...
视觉语言模型(VLMs)展现出卓越的常识和语义推理能力。然而,它们缺乏对物理动态的扎实理解。
我们介绍了一个大规模的 synthetic benchmark,包含 15,045 道大学水平的 physics problems(90/10% train/test split)。每道题目都是完全 parameterized 的,...
由大型语言模型驱动的 AI 代理正日益作为云服务部署,它们能够自主访问敏感数据、调用外部工具,并且……
在实际应用中,不完整的数据很常见。传感器会失效,记录可能不一致,并且从不同来源收集的数据集往往在规模上有所不同……
美国人口普查局提供的个人公共使用微观数据样本(PUMS)已经可用数十年。然而,计算能力的大幅提升……
资源分配仍然是 NP-hard 的,因为其组合复杂性。虽然 deep reinforcement learning (DRL) 方法,例如 Rainbow Deep Q-Network (DQN),...
Grounding 是构建图形用户界面 (GUI) 代理的基本能力。虽然现有方法依赖于大规模的 bounding box 监督……
最优实验设计是统计学中的经典主题,拥有众多研究深入的问题、应用和解决方案。我们研究的设计问题是 p...
常见的可解释人工智能(XAI)在深度学习中的方法侧重于分析给定模型中输入特征对分类任务的重要性:saliency maps……
在本文中,我们提出了一种 synthesis pipeline 和 dataset,用于 traffic sign recognition 任务的训练/测试数据,结合了 d... 的优势。
我们提出了一种用于模拟汽车飞行时间(ToF)LiDAR的解析模型,包含光斑蔓延、回波脉冲宽度和环境光,并包括步骤……
深度神经网络在实际部署时常因 distribution shift 而失效,这成为构建安全可靠系统的关键障碍。An eme...
面部识别已成为一种广泛使用的身份验证和识别方法,应用于安全访问和寻找失踪人员。它的…
近期在 generative video models 方面的进展已在 high-fidelity video synthesis 领域取得了重大突破,尤其是在 controllable video generation 上……
我们考虑平衡 k-means 聚类的基本问题。特别是,我们引入一种基于 optimal transport 的交替最小化方法,称为……
已发表的 AI 论文包含多少错误?同行评审的出版物构成了新研究和知识构建的基础。出现的错误……
正颌手术是纠正牙面骨骼畸形、提升咬合功能和面部美观的关键干预措施。准确…
在多仓库微服务架构中进行 Bug 定位具有挑战性,因为自然语言 Bug 报告与代码之间存在语义鸿沟,LLM 上下文……
脉冲神经网络(SNNs),是计算神经科学和类脑机器学习(ML)的核心,需要高效的仿真和基于梯度的训练。
现代可扩展的编译器框架——例如 MLIR——能够快速创建特定领域语言(DSL)方言。然而,这种灵活性却使得正确性变得困难……
医学问答(QA)系统可以受益于大型语言模型(LLMs)的进展,但将LLMs直接应用于临床领域会带来挑战……