paper — Page 96 | EUNO.NEWS

1个月前 · ai

[Paper] 面向可扩展的视觉 Tokenizer 预训练用于生成

视觉分词器（例如 VAEs）中的潜在空间质量对现代生成模型至关重要。然而，标准的基于重构的训练……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 超越表层形式：一种用于从自发言语中检测阿尔茨海默病的语义分析管道

阿尔茨海默病（AD）是一种进行性的神经退行性疾病，对认知能力产生不利影响。语言相关的变化可以自动……

#research #paper #ai #nlp
1个月前 · ai

【论文】循环视频掩码自编码器

我们提出了循环视频掩码自编码器（Recurrent Video Masked‑Autoencoders，RVM）：一种新颖的视频表示学习方法，使用 transformer‑based 循环神经网络来……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] I-Scene：3D 实例模型是隐式可泛化空间学习者

泛化仍然是 interactive 3D scene generation 的核心挑战。现有的 learning-based 方法将 spatial understanding 建立在有限的场景上。

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] LASER：用于无训练流式4D重建的层级尺度对齐

近期的前馈重建模型，如 VGGT 和 π^3，取得了令人印象深刻的重建质量，但由于二次内存开销，它们无法处理流式视频。

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 前馈 3D 编辑通过 Text-Steerable Image-to-3D

近期在 image-to-3D 领域的进展为设计、AR/VR 和机器人技术打开了巨大的可能性。然而，要在实际应用中使用 AI 生成的 3D 资产，……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] JoVA：统一多模态学习用于联合视频-音频生成

在本文中，我们提出了 JoVA，一个用于联合 video‑audio 生成的统一框架。尽管最近取得了令人鼓舞的进展，现有方法仍面临两个关键的限制……

#research #paper #ai #computer-vision
1个月前 · ai

[Paper] 迈向 LLM 个性化的有效模型编辑

个人化对于 LLMs 来说变得不可或缺，以便与个人用户的偏好和需求保持一致。然而，当前的方法往往在计算上成本高昂……

#research #paper #ai #nlp
1个月前 · ai

[Paper] 迈向数字人类的交互智能

我们引入了 Interactive Intelligence，这是一种新颖的数字人范式，能够实现与人格对齐的表达、自适应交互以及自我进化……

#research #paper #ai #nlp #computer-vision
1个月前 · ai

[论文] 面向个性化文本到图像生成的方向性 Textual Inversion

Textual Inversion（TI）是一种高效的 text-to-image 个性化方法，但在复杂提示下常常失败。我们将这些失败归因于 embedding norm。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai

[Paper] 有机合成步骤生成的科学推理模型

解决 computer-aided synthesis planning 对于实现全自动、机器人辅助的合成工作流以及提高药物发现的效率至关重要。

#research #paper #ai #machine-learning
1个月前 · ai

[Paper] 基于文体计量的演讲稿说话者归属分析

法医科学家经常需要在诸如勒索电话、秘密录音、所谓自杀信或匿名...的案件中识别未知的说话者或作者。

#research #paper #ai #nlp

Newer posts

Older posts