[Paper] WeaveTime:将早期帧流入 VideoLLMs 的涌现记忆
最近在 Multimodal Large Language Models 方面的进展大幅提升了视觉理解和推理能力,然而它们的 quadratic attention 和 offline training …
最近在 Multimodal Large Language Models 方面的进展大幅提升了视觉理解和推理能力,然而它们的 quadratic attention 和 offline training …
已清理的 Markdown 版本
Test-time training (TTT) 与 KV 绑定作为序列建模层通常被解释为一种在线元学习形式,它记忆键值映射……
视觉强化学习在机器人领域很有吸引力,但成本高——off-policy 方法样本效率高,却速度慢;on-policy 方法并行化效果好,但...
我们研究在任何模态下用于后期交互的高效多向量检索。后期交互已成为信息检索中的主导范式……
Embodied LLMs 为机器人赋予高级任务推理能力,但它们无法反思出错的原因或原因,从而使部署变成一系列独立的……
冷冻电子断层成像(cryo-ET)能够实现对生物结构的高分辨率三维重建,包括膜和膜蛋白……
最近的扩散方法由于其强大的视觉生成能力,在从单张图像生成视频方面取得了显著进展。然而,c...
虽然视觉语言模型(VLMs)在二维视觉理解方面表现出色,但它们对三维空间的理解和推理能力——空间的基石——……
基于图的医学图像分割使用边界图来表示解剖结构,提供固定拓扑的标记点和固有的人口层面…
深度学习显著推动了自动化脑肿瘤诊断的发展,但临床采用仍受限于可解释性和计算约束……
文本到图像检索是视觉语言学习中的基础任务,但在真实场景中,它常常受到用户查询简短且信息不足的挑战。
视觉-语言-动作(VLA)模型正通过用统一的端到端架构取代模块化流水线,推动自动驾驶的发展。然而,当前的 VLA……
医学图像处理需要专门的软件来处理高维体积数据、异构文件格式以及领域特定的训练……
小微企业店铺业务效率提升 AI 解决方案 “MocoFlex”,AI 发型造型 “StyleSync” 正式发布 https://besuccess.com/wp-content/uploads/2026/02/%EC%9D%B4%EB%AF%B8%EC%A7%80-%EB%AA%A8%EC%9A%94...
统一的多模态模型能够在单一架构中同时理解和生成视觉内容。然而,现有模型仍然对数据需求量大,且过于……
我们提出 tttLRM,这是一种新颖的大规模 3D 重建模型,利用 Test-Time Training (TTT) 层实现长上下文、自回归的 3D 重建……
当前的前馈 3D/4D 重建系统依赖于 dense geometry 和 pose supervision —— 在大规模下获取成本高昂,且在动态场景中尤为稀缺……
从真实世界观测中估计可用于仿真的场景对于下游的规划和策略学习任务至关重要。遗憾的是,现有方法stru...
数据可视化规则——源自数十年在设计和感知方面的研究——确保图表传达的可信度。虽然先前的研究已经表明,大...
解决长期任务需要机器人将高层语义推理与低层物理交互相结合。虽然视觉语言模型(VLMs)...
对专家注释的依赖长期以来一直是人工智能在生物医学应用中的主要瓶颈。虽然 supe...
基于边缘的表征是视觉理解的基本线索,这一原则源于早期的视觉研究,至今仍然是核心。我们扩展了这一…
我们引入了一种基于对角化的 Linear Echo State Networks (ESNs) 优化方法,能够降低储层状态每一步的计算复杂度……
本简报介绍了一种运行时自适应、性能增强的向量引擎,具备低资源、迭代式 CORDIC 基础的 MAC 单元,用于边缘 AI 加速。T...
随着具身代理在 VR、远程呈现和数字人应用中变得核心,它们的动作必须超越与语言对齐的手势:代理应该转向 t...
自主(噪声不可知)生成模型,例如 Equilibrium Matching 和 blind diffusion,挑战了标准范式,通过学习单一的、时间不变的……
Integral Field Spectroscopy (IFS) 调查提供了一个独特的新视野,可在空间和光谱维度上进行学习,并可能帮助揭示前…
尽管 deep learning 在 computer vision 领域取得了成功,但在识别经历了 group-symmetric transformations 的对象时仍然存在困难,尤其是这些变换很少出现……
目标检测器在标称成像条件下表现出强大的性能,但在遭遇模糊、噪声、压缩、恶劣天气或……时可能悄然失效。
我们展示了将量子特征提取方法应用于提升用于空间应用的多类图像分类的效果。通过利用 dyna…
低对比度图像以及模型为何难以处理 你花了数天收集数据。 你挑选了合适的 architecture。 你调节 learning rate。 你 train the model,...
近期在 multimodal reasoning 方面的进展使得能够解释 imagery、将其与 language 连接并执行 structured analytical tasks 的 agents 成为可能。Extend...
Vision-Language-Action models (VLAs) 旨在将语言指令与机器人控制相结合,但在实践中往往未能忠实地遵循语言。当 pr...
人类可以从二维 visual inputs 中推断出物体的 three-dimensional 结构。对这种能力的建模一直是科学界的长期目标。
Black-box 对抗攻击在大型视觉语言模型(LVLMs)上具有挑战性,因为缺少梯度且多模态边界复杂。虽然先前的研究…
从复杂场景中检索用户指定的对象仍然是一项具有挑战性的任务,尤其是当查询含糊不清或涉及多个相似对象时。Exi...
近期在多模态大型语言模型(MLLMs)方面的进展显示出将视觉语言推理扩展到专业工具化图像的巨大潜力……
隐式神经表示(INRs)最近在视频压缩方面展示了令人印象深刻的性能。然而,由于必须对每个 INR 进行过拟合以...
在野外使用类人机器人对任意物体进行视觉定位操作,需要精确的末端执行器(EE)控制以及对……的可推广理解。
Vision-language models (VLMs) 旨在通过联合利用视觉和文本模态进行推理。虽然分配额外的 inference-time computation 已被证明……
人类感知的核心方面是 situated awareness,即将自身与周围物理环境联系起来并对可能的行动进行推理的能力……
时间序列异常检测(TSAD)需要识别即时的 Point Anomalies 和长期的 Context Anomalies。然而,现有的 foundation models f...
高精度(HD)地图对自动驾驶至关重要,提供道路要素的结构化表示,以支持导航和规划。然而,...
Adversarial diffusion 和 diffusion-inversion 方法推动了 unpaired image-to-image translation,但各自面临关键限制。Adversarial approaches …
人类可以从视觉外观推断物体的材料特性,这种能力也延伸到艺术描绘中,在那里类似的感知……
概述 Structured AI 正在为建筑设计工程构建 AI 劳动力。 问题 当今,数十亿美元和数月的人力投入正……
素描本质上是一个顺序过程,笔画按照有意义的顺序绘制,以探索和细化想法。然而,大多数 generative models 将……