[Paper] SkillFactory:Self-Distillation 用于学习认知行为
Reasoning models leveraging long chains of thought 采用多种认知技能,例如对其答案的 verification、backtracking、通过 alternat… 重试。
Reasoning models leveraging long chains of thought 采用多种认知技能,例如对其答案的 verification、backtracking、通过 alternat… 重试。
Vision Language Models (VLMs) 展示了强大的定性视觉理解能力,但在实现具身所需的度量精确空间推理方面仍然困难……
为了处理不明确或模糊的查询,AI 助手需要一套管理其不确定性的策略,以确定 (a) 何时猜测用户意图并回答…
在当今不断发展的世界中,拥有像Ola、Uber和Rapido这样的优质叫车服务非常重要,因为它们对我们的日常出行至关重要。...
手语生成(Sign Language Production,SLP)是将复杂的输入文本转换为真实视频的过程。大多数以往的工作集中在 Text2Gloss、Gloss2Pose 等方面,……
在民主制度中,重大政策决定通常需要某种形式的多数或共识,因此精英必须争取大众支持以执政。历史上,精英……
Watermarking 的目标是将隐藏信号嵌入生成的文本中,在获取到秘密密钥时能够可靠地检测到。Open-weight 语言模型带来…
真正的交互式世界模型需要三个关键要素:real-time long-horizon streaming、一致的spatial memory,以及精确的user control。然而,...
本论文在两个主要领域提出了新颖的贡献:提升生成模型的效率,特别是 normalizing flows,以及应用 gener...
为什么当模型在单域数据集上训练时,最先进的 OOD 检测方法会表现出灾难性失败?我们提供了第一个理论…
我们提出 Jina-VLM,这是一款拥有 2.4B 参数的视觉语言模型,在开放的 2B 规模 VLM 中实现了最先进的多语言视觉问答。The ...
本研究探讨在特定情形下,大型语言模型(LLMs)相较于传统神经网络在天文数据处理方面是否具有优势。