computer vision — Page 9

排序:

1个月前 · ai · - · -

[Paper] WeaveTime：将早期帧流入 VideoLLMs 的涌现记忆

最近在 Multimodal Large Language Models 方面的进展大幅提升了视觉理解和推理能力，然而它们的 quadratic attention 和 offline training …

#research #paper #ai #computer-vision
1个月前 · ai · - · -

视觉模仿学习：Guidde 在人类“专家视频”上训练 AI 代理，而非文档

已清理的 Markdown 版本

#visual imitation learning #agentic AI #screen recording training #enterprise automation #computer vision #AI agents #imitation learning
1个月前 · ai · - · -

[Paper] 测试时训练结合 KV 绑定实际上是线性注意力

Test-time training (TTT) 与 KV 绑定作为序列建模层通常被解释为一种在线元学习形式，它记忆键值映射……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] Squint：用于Sim-to-Real机器人的快速视觉强化学习

视觉强化学习在机器人领域很有吸引力，但成本高——off-policy 方法样本效率高，却速度慢；on-policy 方法并行化效果好，但...

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 任意模态中的多向量索引压缩

我们研究在任何模态下用于后期交互的高效多向量检索。后期交互已成为信息检索中的主导范式……

#research #paper #ai #nlp #computer-vision
1个月前 · ai · - · -

[Paper] 从试错中学习：面向 Embodied LLMs 的反思式测试时规划

Embodied LLMs 为机器人赋予高级任务推理能力，但它们无法反思出错的原因或原因，从而使部署变成一系列独立的……

#research #paper #ai #machine-learning #nlp #computer-vision
1个月前 · ai · - · -

[Paper] 冷冻电子断层成像中膜的感兴趣区域分割与形态学分析

冷冻电子断层成像（cryo-ET）能够实现对生物结构的高分辨率三维重建，包括膜和膜蛋白……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 单张图像生成具备3D姿态和视角控制的人体视频

最近的扩散方法由于其强大的视觉生成能力，在从单张图像生成视频方面取得了显著进展。然而，c...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

【论文】Spa3R：预测空间场建模用于3D视觉推理

虽然视觉语言模型（VLMs）在二维视觉理解方面表现出色，但它们对三维空间的理解和推理能力——空间的基石——……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] Mask-HybridGNet：基于图的分割从像素级监督中获得自发的解剖对应关系

基于图的医学图像分割使用边界图来表示解剖结构，提供固定拓扑的标记点和固有的人口层面…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] XMorph：可解释的脑肿瘤分析通过 LLM 辅助的混合深度智能

深度学习显著推动了自动化脑肿瘤诊断的发展，但临床采用仍受限于可解释性和计算约束……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 透过文字：使用语言模型控制视觉检索质量

文本到图像检索是视觉语言学习中的基础任务，但在真实场景中，它常常受到用户查询简短且信息不足的挑战。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] NoRD：一种数据高效的视觉-语言-动作模型，可在无需推理的情况下驾驶

视觉-语言-动作（VLA）模型正通过用统一的端到端架构取代模块化流水线，推动自动驾驶的发展。然而，当前的 VLA……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[论文] MIP Candy：用于医学图像处理的模块化 PyTorch 框架

医学图像处理需要专门的软件来处理高维体积数据、异构文件格式以及领域特定的训练……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

面向小商户店铺业务效率化的AI解决方案‘모코플렉스’，AI美发造型‘스타일싱크’发布

小微企业店铺业务效率提升 AI 解决方案 “MocoFlex”，AI 发型造型 “StyleSync” 正式发布 https://besuccess.com/wp-content/uploads/2026/02/%EC%9D%B4%EB%AF%B8%EC%A7%80-%EB%AA%A8%EC%9A%94...

#AI solution #small business #retail efficiency #hair styling #computer vision #visualization #MokoFlex #StyleSync
2个月前 · ai · - · -

[Paper] Mobile-O：移动设备上的统一多模态理解与生成

统一的多模态模型能够在单一架构中同时理解和生成视觉内容。然而，现有模型仍然对数据需求量大，且过于……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] tttLRM：测试时训练用于长上下文和自回归3D重建

我们提出 tttLRM，这是一种新颖的大规模 3D 重建模型，利用 Test-Time Training (TTT) 层实现长上下文、自回归的 3D 重建……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] Flow3r：分解流预测用于可扩展的视觉几何学习

当前的前馈 3D/4D 重建系统依赖于 dense geometry 和 pose supervision —— 在大规模下获取成本高昂，且在动态场景中尤为稀缺……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[论文] 仿真就绪的杂乱场景估计：基于物理感知的形状与姿态联合优化

从真实世界观测中估计可用于仿真的场景对于下游的规划和策略学习任务至关重要。遗憾的是，现有方法stru...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[论文] 大型语言模型能理解数据可视化规则吗？

数据可视化规则——源自数十年在设计和感知方面的研究——确保图表传达的可信度。虽然先前的研究已经表明，大...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[论文] NovaPlan：Zero-Shot 长时程操作通过闭环视频语言规划

解决长期任务需要机器人将高层语义推理与低层物理交互相结合。虽然视觉语言模型（VLMs）...

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 超越注释瓶颈：AI驱动的生物学与医学发现

对专家注释的依赖长期以来一直是人工智能在生物医学应用中的主要瓶颈。虽然 supe...

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] StructXLIP：通过多模态结构线索提升视觉-语言模型

基于边缘的表征是视觉理解的基本线索，这一原则源于早期的视觉研究，至今仍然是核心。我们扩展了这一…

#research #paper #ai #machine-learning #computer-vision
2个月前 · devops · - · -

线性水库：基于对角化的优化

我们引入了一种基于对角化的 Linear Echo State Networks (ESNs) 优化方法，能够降低储层状态每一步的计算复杂度……

#research #paper #devops #computer-vision
2个月前 · ai · - · -

[Paper] CORVET：一种基于 CORDIC、资源节约的混合精度向量处理引擎，用于高吞吐量 AIoT 应用

本简报介绍了一种运行时自适应、性能增强的向量引擎，具备低资源、迭代式 CORDIC 基础的 MAC 单元，用于边缘 AI 加速。T...

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] SARAH：空间感知实时代理人类

随着具身代理在 VR、远程呈现和数字人应用中变得核心，它们的动作必须超越与语言对齐的手势：代理应该转向 t...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 噪声的几何：为什么 Diffusion Models 不需要 Noise Conditioning

自主（噪声不可知）生成模型，例如 Equilibrium Matching 和 blind diffusion，挑战了标准范式，通过学习单一的、时间不变的……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 基于无监督卷积长短期记忆网络的空间光谱表示学习

Integral Field Spectroscopy (IFS) 调查提供了一个独特的新视野，可在空间和光谱维度上进行学习，并可能帮助揭示前…

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 潜在等变算子用于鲁棒目标识别：前景与挑战

尽管 deep learning 在 computer vision 领域取得了成功，但在识别经历了 group-symmetric transformations 的对象时仍然存在困难，尤其是这些变换很少出现……

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

[Paper] 自感知目标检测 via 退化流形

目标检测器在标称成像条件下表现出强大的性能，但在遭遇模糊、噪声、压缩、恶劣天气或……时可能悄然失效。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 量子增强的卫星图像分类

我们展示了将量子特征提取方法应用于提升用于空间应用的多类图像分类的效果。通过利用 dyna…

#research #paper #ai #machine-learning #computer-vision
2个月前 · ai · - · -

你可能跳过的预处理步骤（以及模型为何为此付出代价）

低对比度图像以及模型为何难以处理你花了数天收集数据。你挑选了合适的 architecture。你调节 learning rate。你 train the model，...

#data preprocessing #image augmentation #computer vision #model performance #lighting variation #training data quality
2个月前 · ai · - · -

[Paper] OpenEarthAgent：用于工具增强的地理空间代理的统一框架

近期在 multimodal reasoning 方面的进展使得能够解释 imagery、将其与 language 连接并执行 structured analytical tasks 的 agents 成为可能。Extend...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 当视觉压倒语言：评估与缓解 VLAs 中的反事实失效

Vision-Language-Action models (VLAs) 旨在将语言指令与机器人控制相结合，但在实践中往往未能忠实地遵循语言。当 pr...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

人类水平的 3D 形状感知源于多视图学习

人类可以从二维 visual inputs 中推断出物体的 three-dimensional 结构。对这种能力的建模一直是科学界的长期目标。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

Black-box 对抗攻击在大型视觉语言模型（LVLMs）上具有挑战性，因为缺少梯度且多模态边界复杂。虽然先前的研究…

#research #paper #ai #machine-learning #nlp #computer-vision
2个月前 · ai · - · -

[Paper] IntRec：基于意图的检索与对比式细化

从复杂场景中检索用户指定的对象仍然是一项具有挑战性的任务，尤其是当查询含糊不清或涉及多个相似对象时。Exi...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] RetouchIQ：MLLM Agents用于基于指令的图像修饰的通用奖励

近期在多模态大型语言模型（MLLMs）方面的进展显示出将视觉语言推理扩展到专业工具化图像的巨大潜力……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[论文] TeCoNeRV：利用时间一致性实现可压缩的视频神经表示

隐式神经表示（INRs）最近在视频压缩方面展示了令人印象深刻的性能。然而，由于必须对每个 INR 进行过拟合以...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 学习类人机器人末端执行器控制用于开放词汇视觉运动操作

在野外使用类人机器人对任意物体进行视觉定位操作，需要精确的末端执行器（EE）控制以及对……的可推广理解。

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 显著性感知多路径思考：重新审视视觉-语言推理

Vision-language models (VLMs) 旨在通过联合利用视觉和文本模态进行推理。虽然分配额外的 inference-time computation 已被证明……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 在真实世界中学习情境感知

人类感知的核心方面是 situated awareness，即将自身与周围物理环境联系起来并对可能的行动进行推理的能力……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] VETime：视觉增强零样本时间序列异常检测

时间序列异常检测（TSAD）需要识别即时的 Point Anomalies 和长期的 Context Anomalies。然而，现有的 foundation models f...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] PredMapNet：未来与历史推理用于一致的在线HD矢量地图构建

高精度（HD）地图对自动驾驶至关重要，提供道路要素的结构化表示，以支持导航和规划。然而，...

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[论文] Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge

Adversarial diffusion 和 diffusion-inversion 方法推动了 unpaired image-to-image translation，但各自面临关键限制。Adversarial approaches …

#research #paper #ai #computer-vision
2个月前 · ai · - · -

[Paper] 风格感知光泽控制用于生成式非写实渲染

人类可以从视觉外观推断物体的材料特性，这种能力也延伸到艺术描绘中，在那里类似的感知……

#research #paper #ai #computer-vision
2个月前 · ai · - · -

Structured AI (YC F25) 招聘中

概述 Structured AI 正在为建筑设计工程构建 AI 劳动力。问题当今，数十亿美元和数月的人力投入正……

#AI agents #computer vision #construction design #QA/QC automation #design engineering #startup #AI co‑design
2个月前 · ai · - · -

[Paper] VideoSketcher: 视频模型先验实现多功能顺序草图生成

素描本质上是一个顺序过程，笔画按照有意义的顺序绘制，以探索和细化想法。然而，大多数 generative models 将……

#research #paper #ai #computer-vision

Newer posts

Older posts