[Paper] 降低 AI 研究成本:Task-Aware Compression 如何让 Large Language Model Agents 变得负担得起
当研究人员将 large language models 用于文献审阅或假设生成等自主任务时,计算费用会迅速累积。A...
当研究人员将 large language models 用于文献审阅或假设生成等自主任务时,计算费用会迅速累积。A...
链式思考(CoT)推理已成为多模态大型语言模型在视频理解任务中的强大工具。然而,它的必要性和...
具身问答(EQA)在3D环境中通常需要收集分布在多个视角且部分被遮挡的上下文。Ho...
针对作物病害分析的 Visual Question Answering 需要准确的视觉理解和可靠的语言生成。本工作提出了一种轻量级的 vi...
将学术界的最佳方法应用于实践,以获得最大收益。文章《How to Improve the Performance of Visual Anomaly Detection Models》...
了解更多关于人工智能在农业中的应用...
深度学习已经彻底改变了视觉数据分析,卷积神经网络(CNN)在学习有意义的特征表示方面表现出极高的效能……
🍝 从像素到卡路里——多模态 AI 与自动卡路里追踪 我们都有过这样的经历:盯着一盘美味的意面,想弄清楚它是否……
我们物理的4D(3D + 时间)世界中的动态对象不断演化、变形并与其他对象相互作用,导致多样的4D场景动态……
现有的视觉定位方法通常要么是 2D image-based 的,这类方法易于构建和维护,但在有效的几何推理方面受限,或者……
病理基础模型(PFMs)已成为计算病理学的核心,旨在提供用于从全切片图像中提取特征的通用编码器……
远程光电容积描记(rPPG)从普通摄像头捕获的面部视频中估计血容量脉冲(BVP)波形。虽然最近的深度模型 i...
Direct Preference Optimization (DPO) 最近通过提升视觉保真度和文本对齐,改进了文本到视频(T2V)生成。然而,当前的方法…
音视频联合生成已经快速发展,但仍然存在重大挑战。非商业方法仍然存在音视频不同步的问题,...
随着世界模型在 Embodied AI 中获得动力,越来越多的工作探索使用 video foundation models 作为预测性世界模型,以用于下游 embo...
卫星持续产生海量数据,尤其是用于地球观测,包括卫星图像时间序列(SITS)。然而,大多数深度学习...
代表用户与图形界面交互的 GUI 代理代表了实用 AI 助手的一个有前景的方向。然而,训练此类代理……
自动血液形态分析可以在低收入和中等收入国家(LMICs)支持血液学诊断,但仍然对 dataset shifts 敏感……
Large Multimodal Models (LMMs) 已展示出在通过 Chain-of-Thought (CoT) 进行视频推理方面的惊人能力。然而,它们推理的鲁棒性…
在静态图像上训练的前馈人工神经网络(ANNs)仍然是灵长类动物腹侧视觉通路的主导模型,然而它们本质上……
我们提出了 Muses,这是首个在前馈范式下实现奇幻 3D 生物生成的无训练方法。之前的方法依赖于部件感知的 opt...
现有的深度估计方法根本上受限于在离散的图像网格上预测深度。这类表示方式限制了它们在任意…
随着 AIGC(AI 生成内容)技术的进步,越来越多的生成模型正在革新视频编辑、音乐等领域。
近期的 text-to-video diffusion 模型能够生成引人入胜的视频序列,但它们仍然是无声的——缺失语义、情感和氛围线索……