[Paper] 面向视频扩散模型的通信高效服务与潜在并行
视频扩散模型(VDMs)在三维时空域上执行注意力计算。相较于处理一维序列的大型语言模型(LLMs)……
4797 posts from this source
视频扩散模型(VDMs)在三维时空域上执行注意力计算。相较于处理一维序列的大型语言模型(LLMs)……
视觉语言模型(VLMs)已展示出令人印象深刻的多模态理解能力,并正被部署在越来越多的在线视频中……
大型语言模型(LLMs)的快速采用正推动 AI 加速器向更强大且更专用的设计发展。与其进一步复杂化…
Process mining 传统上假设事件数据的集中收集和分析。然而,现代的 Industrial Internet of Things 系统正日益以 … 运行。
虽然 surrogate backpropagation 在训练深层 spiking neural networks (SNNs) 中被证明是有用的,但在大规模 …
Lottery Ticket Hypothesis 断言,在密集、随机初始化的神经网络中存在高度稀疏、可训练的子网络(“winning tickets”)。
我们引入 Neuro‑Vesicles,一个在传统神经网络上增添缺失计算层的框架:一个动态的、可移动的、离散的……
本文介绍了 ArcGD 优化器的公式化、实现和评估。评估最初在一个非凸基准函数上进行……
我们报告了一种单色多任务衍射网络架构,利用照明相位复用来动态重新配置其输出功能……
循环神经架构如 LSTM 和 GRU 在序列建模中仍被广泛使用,但它们仍面临两个核心限制:冗余的门…
在大型语言模型(LLMs)时代,检索增强生成(RAG)架构因其能够将语言……
Instruction-based image editing 已成为一个重要的研究领域,受益于 image generation foundation models,已经实现了高水平的美学效果……
实时分块(RTC)使视觉‑语言‑动作模型(VLAs)能够通过异步预测动作块,生成平滑、响应迅速的机器人轨迹……
强化学习 (RL) 已成为微调大型语言模型 (LLMs) 以解决涉及推理任务的事实标准。然而,越来越多的证据表明,模型 tra...
水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...
视觉语言模型(VLMs)在视觉问答(VQA)中取得了强劲的表现,但它们仍受限于静态的训练数据。检索…
基于大型语言模型(LLMs)的生成式搜索引擎正在取代传统搜索,根本改变了信息提供者的补偿方式……
在本工作中,我们研究了 kernel regularity 与 algorithmic performance 在 RKHS 函数的 bandit optimization 中的关系。虽然 reproduci...
视觉语言模型(VLMs)展现出卓越的常识和语义推理能力。然而,它们缺乏对物理动态的扎实理解。
我们介绍了一个大规模的 synthetic benchmark,包含 15,045 道大学水平的 physics problems(90/10% train/test split)。每道题目都是完全 parameterized 的,...
由大型语言模型驱动的 AI 代理正日益作为云服务部署,它们能够自主访问敏感数据、调用外部工具,并且……
在实际应用中,不完整的数据很常见。传感器会失效,记录可能不一致,并且从不同来源收集的数据集往往在规模上有所不同……
美国人口普查局提供的个人公共使用微观数据样本(PUMS)已经可用数十年。然而,计算能力的大幅提升……
资源分配仍然是 NP-hard 的,因为其组合复杂性。虽然 deep reinforcement learning (DRL) 方法,例如 Rainbow Deep Q-Network (DQN),...
Grounding 是构建图形用户界面 (GUI) 代理的基本能力。虽然现有方法依赖于大规模的 bounding box 监督……
最优实验设计是统计学中的经典主题,拥有众多研究深入的问题、应用和解决方案。我们研究的设计问题是 p...
常见的可解释人工智能(XAI)在深度学习中的方法侧重于分析给定模型中输入特征对分类任务的重要性:saliency maps……
在本文中,我们提出了一种 synthesis pipeline 和 dataset,用于 traffic sign recognition 任务的训练/测试数据,结合了 d... 的优势。
我们提出了一种用于模拟汽车飞行时间(ToF)LiDAR的解析模型,包含光斑蔓延、回波脉冲宽度和环境光,并包括步骤……
深度神经网络在实际部署时常因 distribution shift 而失效,这成为构建安全可靠系统的关键障碍。An eme...
面部识别已成为一种广泛使用的身份验证和识别方法,应用于安全访问和寻找失踪人员。它的…
近期在 generative video models 方面的进展已在 high-fidelity video synthesis 领域取得了重大突破,尤其是在 controllable video generation 上……
我们考虑平衡 k-means 聚类的基本问题。特别是,我们引入一种基于 optimal transport 的交替最小化方法,称为……
已发表的 AI 论文包含多少错误?同行评审的出版物构成了新研究和知识构建的基础。出现的错误……
正颌手术是纠正牙面骨骼畸形、提升咬合功能和面部美观的关键干预措施。准确…
在多仓库微服务架构中进行 Bug 定位具有挑战性,因为自然语言 Bug 报告与代码之间存在语义鸿沟,LLM 上下文……
脉冲神经网络(SNNs),是计算神经科学和类脑机器学习(ML)的核心,需要高效的仿真和基于梯度的训练。
现代可扩展的编译器框架——例如 MLIR——能够快速创建特定领域语言(DSL)方言。然而,这种灵活性却使得正确性变得困难……
医学问答(QA)系统可以受益于大型语言模型(LLMs)的进展,但将LLMs直接应用于临床领域会带来挑战……
这是该系列的第四篇简短报告,帮助商业、教育和政策领袖了解通过 ri... 与 AI 合作的技术细节。
本文通过将进化优化形式化为相变,建立了进化计算与统计物理之间的新颖联系。
我放宽了信息经济模型中关于传递性(transitivity)和划分结构(partition structure)的标准假设,以形式化模糊知识:非传递性不可区分……
本研究考察了在美国最高法院口头辩论期间的打断如何影响辩护人言论的语义内容和情感基调,……
长视频理解(LVU)具有挑战性,因为回答现实世界的查询往往依赖于埋藏在数小时大部分内容中的稀疏、时间上分散的线索……
对已观测到的系外行星起源的解释通常只能定性进行,因为行星形成模型中的关键参数存在不确定性。为了...
现代 cloud applications 提供全球服务,通常构建在具有 microservice architecture 的 distributed systems 上。在这些系统中,端到端用户 r...
Function-as-a-Service(FaaS)计算是一种新兴的云计算范式,因其易于管理和弹性而受到关注。然而,优化调度以 ser...
End-user development,非程序员创建或改编自己的数字工具,能够在推动组织内部的数字化转型中发挥关键作用。...