[Paper] TurnWise:单轮与多轮语言模型能力之间的差距
多轮对话是语言模型交互的常见且关键的模式。然而,当前公开的训练和评估数据主要关注单轮……
多轮对话是语言模型交互的常见且关键的模式。然而,当前公开的训练和评估数据主要关注单轮……
Google 于星期二宣布 https://blog.google/products-and-platforms/products/search/personal-intelligence-expansion/,所有美国用户现在将获得……
大型语言模型(LLMs)正日益被部署在具有社会影响的应用中,引发了对其所编码的文化偏见的担忧。我们探讨……
在本报告中,我们介绍了 IQuest-Coder-V1 系列(7B/14B/40B/40B-Loop),这是一类新的代码大型语言模型(LLMs)。超越静态代码表示……
像 Snapchat 这样的社交媒体应用的功能几乎和潮流的变化一样快。为了跟上步伐,其母公司 Snap 已采用 open data processing……
脉冲神经网络(SNN)提供了一种比传统人工神经网络(ANN)更节能的替代方案,但通常仍然需要大量的……
问题是,每次你的代理开始对话时,它都是从零开始。当然,你可以把摘要塞进系统提示,使用 RAG,或者调用 Mem0 或 Ze……
大多数运营商认为他们的 agents 正在高效运行。实际上并非如此。并不是因为有人把它们构建得糟糕,而是因为没有人对它们进行 audit。你构建了 thin……
概述 大多数神经符号系统注入由人类编写的规则。但如果神经网络能够自行发现这些规则呢?在这个实验中,我扩…
🎉 今日发布:GPT‑5.4 mini 与 GPT‑5.4 nano 我们的最新小模型系列将 GPT‑5.4 的诸多优势带入更快、更高效的模型中,……
TL;DR - Google 正在测试一项功能,让你...
动态多模式资源受限项目调度问题(DMRCPSP)具有实际重要性,因为它需要在变化的条件下实时做出决策。
偏好语言:像“prefer”“try to”“when possible”和“ideally”之类的词会把规则变成建议。模型将建议视为可选——…
问题:AI Sounds Like AI GPT‑4.5,在赋予类人角色后,被 73% 的评估者认定为人类——超过了 act… 的识别率。
对于独立的餐车老板来说,突如其来的健康检查不仅仅是一次体检——它是一场慌乱的抢救。这意味着要翻查数月的手写记录……
引言:工资信息影响重要决策:人们申请哪些工作、是否进行谈判,以及某个职业道路是否值得追求……
← 返回文章 Authors !Shuver https://huggingface.co/avatars/d116ee7bef2ca4f33d68a7883ddcdbbf.svg https://huggingface.co/shuver !
AI Factories——从数月到数天 能够在仿真中建立 AI Factories——将部署时间从数月缩短到数天——正在加速下一轮工业革命。
Z.ai宣布GLM‑5‑Turbo 中文 AI 初创公司Z.ai(前身为智谱AI),以其强大的开源GLM系列大型语言模型(LLM)而闻名,已推出……
Vision-Language-Action (VLA) 模型在静态操作方面表现出色,但在具有移动目标的动态环境中表现不佳。这一性能差距主要源于 …
扩展深度是大型语言模型(LLMs)的关键驱动因素。然而,随着LLMs变得更深,它们往往会遭受信号衰减:信息特征形成……
Vision-Language-Action(VLA)模型最近作为一种有前景的机器人操作范式出现,其中可靠的动作预测关键依赖于……
AI 能在重要、未解决的数学问题上取得进展吗?Large language models 现在已经能够进行复杂的数学和科学推理,……
生成用于视觉文本渲染的准确 glyphs 是必不可少且充满挑战的。现有方法通常通过在大量数据上进行训练来提升文本渲染效果。
现有的大语言模型(LLMs)行为对齐技术往往忽视表面顺从与内部未对齐表示之间的差异……
最近的视频扩散模型在视觉质量方面取得了显著进步,但精确、细粒度的控制仍然是限制其实用性的关键瓶颈。
我们提出 HSImul3R,一个统一的框架,用于从随意捕获(包括稀疏视角)中实现可用于仿真的 3D 重建人‑场景交互(HSI)。
SAM 3D Body(3DB)在单目 3D 人体网格恢复方面实现了最先进的精度,但其每张图像数秒的推理延迟阻碍了实时……
近期的对话记忆系统在摄取阶段大量投入基于 LLM 的结构化,以及在查询阶段的学习检索策略。我们展示了 neithe…
我们研究在对抗性腐败和具有有限 (1+ε) 阶矩(其中 ε∈(0,1])的重尾噪声下的 linear contextual bandits。现有工作...
深度搜索能力已成为前沿大型语言模型(LLM)代理的不可或缺的能力,然而高性能搜索的开发……
物理信息神经网络(PINNs)和神经算子(NOs)用于求解极紫外(EUV)电磁波衍射问题……
如果一个 world simulation model 能够渲染的不是想象中的环境,而是实际存在的城市会怎样?之前的 generative world models 在视觉上合成了 pla...
本文开发了用于前向反射-后向分裂(FRBS)方法的新方差降低技术,以求解一类可能非单调的随机问题。
扩展推理时计算已成为 LLM 性能的重要驱动因素,使得推理效率成为模型设计的核心关注点之一,……
随着 AI 编码代理成为源码的主要生产者和消费者,软件行业正面临机构知识的加速流失。Eac...
我们提出了 PokeAgent Challenge,这是一个基于 Pokemon 多智能体对战系统和广阔角色扮演的的大规模决策研究基准。
摘要:大语言模型(LLMs)正变得越来越强大,促使人们最近对 LLM 团队产生兴趣。然而,尽管 LLM 团队的部署日益增多……
对于形态学丰富、资源匮乏的语言,关键词提取仍然研究不足,主要原因是缺乏合适的评估数据集。我们…
越南医学研究已成为一个日益重要的领域,尤其是随着旨在减少时间和资源的智能技术的兴起……
AI 系统在沉默中失败的情况远比可见的失败更常见。在对 WildChat 数据集中的人机交互进行的大规模定量分析中,我们发现…
Agent skills(代理技能),在推理时注入的结构化过程知识包,正日益被用于增强 LLM 代理在软件工程任务中的能力。Ho...
概述:OpenAI 即将推出的“adult mode”将允许用户与 ChatGPT 进行淫秽对话,但它不会生成 explicit images、audio 或 video。在响应中...
罗氏在全球扩大 NVIDIA AI Factories,以加速药物发现、诊断解决方案和制造突破
随着电信运营商加速采用 AI-enabled automation,一个实际问题仍未得到解决:通用的大型语言模型(general‑purpose large language model)能否……
Problem Statement 我在过去几个月里一直在构建某个东西,但我仍在尝试弄清楚自己是否在解决一个真实的问题,还是仅仅在过度设计……