OpenAI 在 Anthropic 推出其自有模型几分钟后发布新的 agentic coding 模型
新模型旨在加速 Codex 的功能,Codex 是 OpenAI 本周早些时候推出的具备代理能力的编码工具……
新模型旨在加速 Codex 的功能,Codex 是 OpenAI 本周早些时候推出的具备代理能力的编码工具……
Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……
高效且持续地将 large pretrained models 适配到新任务对于 real‑world deployment 至关重要,但由于 catastrophic forgetting 等挑战仍然困难。
多图像空间推理仍然是当前多模态大语言模型(MLLMs)的挑战。虽然单视角感知本质上是二维的,推理……
由提示的大型语言模型构建的多代理系统可以提升多轮推理能力,然而大多数现有的流水线依赖于固定的、跨轨迹的通信……
多模态大型语言模型(MLLMs)通过连接视觉和语言,在多模态感知和推理方面取得了显著进展。然而,大多数现有...
为了完成人类以 natural language 提供的任务,机器人必须解释指令,生成并回答与 scene understanding 相关的问题,……
近期在空间推理方面的进展,使用多模态大语言模型(MLLMs)越来越多地利用来自3D编码器的几何先验。然而,大多数现存……
自回归大型语言模型(LLMs)表现出色,但需要本质上顺序的解码,导致推理延迟高且 GPU 利用率差……
人类很少在显式的全身动作层面上规划与物体的全身交互。高级意图,例如 affordance,定义了目标……
多模态大语言模型(MLLMs)最近被用于通用多模态检索,其中链式思考(CoT)推理能够提升候选项的质量。
预训练的视觉语言模型对物理世界没有良好的直觉。最近的研究表明,监督微调可以提升模型的……
Vision Foundation Models (VFMs) 在应用于各种下游 2D 任务时取得了显著成功。尽管它们效果显著,但它们常常表现出……
Out-of-distribution(OOD)检测,将高维数据映射为标量 OOD 分数,对于机器学习模型的可靠部署至关重要……
基于大型语言模型(LLM)的多代理系统能够实现富表达的代理推理,但其扩展成本高,并且在时间步对齐的场景下校准性较差。
主动推断(AIF)通过最小化期望自由能(EFE)统一了探索与利用,平衡认知价值(信息增益)和实际价值(...)。
近期针对实时长视频生成的研究通常采用 streaming tuning 策略,尝试使用 short‑cont(短上下文)来训练 long‑context student。
记忆在超出单个上下文窗口运行的大型语言模型(LLM)代理中变得日益核心,然而大多数现有系统仍依赖离线的、查询式的…
虚拟现实(VR)已成为评估学校安全措施的强大工具,尤其在学校枪击等高风险情境中,提供实验……
大型语言模型(LLMs)表现出持续的误校准,尤其是在指令微调和偏好对齐之后。修改后的训练目标可以 i...
当 diffusion model 并未记忆 training data set 时,它到底是如何实现 generalize 的?对它生成的 distribution 进行 quantitative understanding …
现有的加速语言模型推理的技术,例如 speculative decoding,需要训练辅助的 speculator 模型并构建和部署…
大型语言模型(LLMs)正日益以零样本方式用于评估心理健康状况,但我们对哪些因素了解有限,...
Thompson 采样(TS)在随机多臂赌博机中被广泛使用,但其在自适应数据收集下的推断属性非常微妙。经典的……
视觉生成模型的快速发展已经超出了传统评估方法的步伐,迫切需要采用 Vision-Language Models 作为替代……
基于大型语言模型(LLM)的代理正日益被期望能够自主进行谈判、协调和交易,然而现有的基准缺乏原则性的……
语音情感识别(Speech Emotion Recognition, SER)研究由于缺乏标准且足够大的数据集而受到限制。最近的研究利用了预训练…
扩散大语言模型(dLLMs)已成为文本生成的有前景的替代方案,其特点是原生支持并行解码……
深度研究代理已经成为处理复杂查询的强大系统。与此同时,基于LLM的检索器在fol方面展示了强大的能力。
语义表征可以被构建为一种结构化、动态的知识空间,人类在其中导航以检索和操作意义。为了研究……
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。
请提供您需要翻译的具体摘录或摘要文本。
Boris Cherny 在公共场合相对经常被认出来。无论是在酒吧、机场,还是在一般的公共空间,人们都想和这位 cre...
长推理模型在多语言环境中常常遇到困难:它们倾向于对非英语问题使用英语进行推理;当被限制在...
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。
Claude Opus 4.6,Anthropic 的最新模型,现已在 GitHub Copilot 中推出。在早期测试中,Claude Opus 4.6 在 agentic coding 方面表现出色,具备 specialization…
多项选择题(MCQs)常用于评估大型语言模型(LLMs)中编码的知识、推理能力,甚至价值观。虽然...
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。
DARWIN 是一种进化型 GPT 模型,利用类似遗传算法的优化结构,对多个独立的 GPT 代理进行单独训练……
在 Super Bowl——抱歉,我是指 “Big Game”——本周日,Google 正在播出一则关于 Gemini 应用的广告。更多…
代码补全(Code completion,CC)是开发者在与基于 LLM 的编程助手协作时常用的任务。尽管性能有所提升……
本工作研究了自动 AI 代理优化方法在形式验证环境中对真实世界代理的适用性,重点关注自动定理证明……
深度学习革命有一个奇怪的盲点:电子表格。虽然大型语言模型(LLMs)已经掌握了人类散文和图像生成的细微差别……
Pipeline parallelism 使得训练超出单设备内存限制的模型成为可能,但实际吞吐量仍受到 pipeline bubbles 的限制。虽然 parameter …
AI 如何影响优先级 我以为我在使用 AI 来更快执行。 我没有意识到的是,它悄悄地在塑造我在第一阶段所工作的内容……
在本文中,我们提出了一种受神经启发的 reservoir computing (RC) 方法,其中体外培养的皮层神经元网络作为物理……
LLM 的类人认知能力是真实的还是虚假的?信息在神经网络中是如何传播的?LLM 内部是否存在隐藏的知识?……
ElevenLabs CEO 在卡塔尔 Web Summit 上表示,语音将成为 AI 的下一个界面,因为 OpenAI、Google 和 Apple 正在将对话系统推向可穿戴设备以及新的……