[Paper] Qwen3-VL 技术报告
我们推出 Qwen3-VL,这是截至目前 Qwen 系列中最强大的视觉语言模型,在广泛的多模态基准上实现了卓越的性能……
我们推出 Qwen3-VL,这是截至目前 Qwen 系列中最强大的视觉语言模型,在广泛的多模态基准上实现了卓越的性能……
大型语言模型在生成创意文本方面的能力日益提升,然而大多数关于 AI 生成诗歌的研究仍聚焦于英语——一种占主导地位的语言……
最近,Freedman 和 Mulligan 的研究表明,浅层多层感知器在训练过程中会自发地形成 Kolmogorov‑Arnold 几何(KAG)结构,在 t...
大型语言模型(LLMs)最近在基于文本属性的图机器学习领域引发了革命,但将LLMs应用于图异常检测、...
算法已被估计在 2012 年至 2023 年间将 AI 训练 FLOP 效率提升了 22,000 倍 [Ho et al., 2024]。运行小规模的消融实验…
交互式分割模型,例如 Segment Anything Model(SAM),在自然图像上展示了显著的泛化能力,但表现不佳……
生成式 AI 的兴起使得在医疗、金融和公共政策等领域能够生成高保真度的合成表格数据,这不仅提升了数据可用性,还带来了诸多挑战和机遇。随着合成数据质量的不断提升,研究人员和从业者开始探索其在数据共享、隐私保护以及模型训练等方面的潜在应用。然而,合成数据的真实性、偏差以及对下游任务的影响仍是亟待解决的问题。本文综述了当前生成式 AI 在合成表格数据生成中的最新进展,重点讨论了模型架构、评估指标以及实际应用场景,并提出了未来研究的可能方向。
Large language models (LLMs) achieve state-of-the-art results across many natural language tasks, but their internal mechanisms remain difficult to interpret. I...
视频扩散模型在帧级保真度方面表现出色,但仍在运动连贯性、动态性和真实感方面存在困难,常常会产生抖动、重影或 …
大型语言模型(LLMs)在许多基准测试中取得了令人印象深刻的结果,但它们在规划和有状态推理方面的能力仍不明确。我们研究了……
端到端(E2E)自动驾驶模型在开放环评估中表现出强大的性能,但往往会出现级联错误和泛化能力差的问题……
Latent reasoning 代表了 Transformer 语言模型的一个新发展,与 chain-of-thought 相比,它在压缩推理长度方面显示出潜力。