ai — Page 65 | EUNO.NEWS

3周前 · ai

[Paper] AirGS：实时 4D 高斯流媒体用于自由视点视频体验

Free‑viewpoint video（FVV）通过允许用户从任意视角观看场景，实现沉浸式观看体验。作为一种重要的重建技术……

#research #paper #ai #machine-learning
3周前 · ai

[Paper] FEM-Bench：用于评估代码生成型大语言模型的结构化科学推理基准

随着LLMs在物理世界推理能力方面的进步，缺乏严格的基准来评估它们生成科学上…

#research #paper #ai #machine-learning
3周前 · ai

[Paper] SemanticGen: 语义空间中的视频生成

最先进的视频生成模型通常在 VAE 空间中学习视频潜在变量的分布，并使用 VAE 解码器将其映射到像素。虽然 th...

#research #paper #ai #computer-vision
3周前 · ai

[Paper] LongVideoAgent：多智能体推理与长视频

最近在多模态 LLM 和使用工具进行长视频 QA 的系统方面的进展，表明了对长达数小时情节进行推理的前景。然而，许多方法...

#research #paper #ai #machine-learning #computer-vision
3周前 · ai

[Paper] SpatialTree：空间能力在 MLLMs 中的分支

认知科学表明，空间能力是逐步发展的——从感知到推理再到交互。然而在多模态大语言模型（MLLMs）中，这种层次...

#research #paper #ai #computer-vision
3周前 · ai

[Paper] 视频化身中的主动智能 via Closed-loop World Modeling

当前的视频化身生成方法在身份保持和动作对齐方面表现出色，但缺乏真实的自主性，它们无法自主追求长期目标。

#research #paper #ai #computer-vision
3周前 · ai

[Paper] 让大语言模型成为高效稠密检索器

最近的研究表明，直接微调大型语言模型（LLMs）用于密集检索可以获得强大的性能，但它们庞大的参数数量……

#research #paper #ai #nlp
3周前 · ai

[Paper] FedPOD：用于联邦学习的可部署训练单元

本文提出了 FedPOD（Proportionally Orchestrated Derivative），用于在多方联邦学习中优化学习效率和通信成本。

#research #paper #ai #machine-learning #computer-vision
3周前 · ai

[Paper] Saddle-to-Saddle 动力学解释了跨神经网络架构的简洁偏差

使用梯度下降训练的神经网络通常会随时间学习到日益复杂的解，这一现象被称为 simplicity bias。尽管被 wid…

#research #paper #ai #machine-learning
3周前 · ai

[Paper] 重新利用 Video Diffusion Transformers 实现鲁棒点跟踪

点跟踪旨在定位视频帧之间的对应点，作为四维重建、机器人技术和视频编辑的基础任务。现有...

#research #paper #ai #computer-vision
3周前 · ai

[Paper] 自回归模型中的涌现时间抽象实现层次强化学习

大规模自回归模型在下一标记预测上进行预训练，并通过强化学习（RL）进行微调，已在许多方面取得了前所未有的成功……

#research #paper #ai #machine-learning
3周前 · ai

[Paper] MoE-DiffuSeq：使用 Sparse Attention 和 Mixture of Experts 提升长文档 Diffusion Models

我们提出 MoE-DiffuSeq，这是一种基于 mixture of experts 的框架，用于增强 diffusion 模型在长文档生成中的能力。现有的基于 diffusion 的文本生成…

#research #paper #ai #nlp

Newer posts

Older posts