[Paper] Parcae:稳定循环语言模型的尺度定律
传统的固定深度架构通过增加训练 FLOPs 来提升质量,通常通过增加参数化(parameterization),但代价是更高的内存……
传统的固定深度架构通过增加训练 FLOPs 来提升质量,通常通过增加参数化(parameterization),但代价是更高的内存……
Speech-to-speech language models 最近出现,以提升对话式 AI 的自然度。特别是,full-duplex models 通过 t...
Metonymy 和 metaphor 常常在自然语言中共现,但计算工作大多是孤立地研究它们。我们提出了一个将……转化的框架。
二进制反编译是一项关键的逆向工程任务,旨在从已剥离的可执行文件中重建高级源代码。虽然 Large Language Model...
多语言基准指导前沿模型的开发。然而,前沿模型报告的多语言评估结构类似于流行的...
在关于神经元细胞自动机(NCAs)的文献中,通常理所当然地认为这些系统会学习吸引子。这一点通过演化 th...
MIT 人文、艺术与社会科学学院(SHASS)于 1950 年成立(https://shass.mit.edu/about-the-school/shass-timeline/),以响应“一个新的 …”。
大型语言模型(LLMs)越来越依赖显式推理来解决编码任务,但评估此类推理的质量仍然具有挑战性。Ex...
流式数据驱动优化(SDDO)问题在许多应用中出现,这些应用中数据持续到达,且优化环境随时间演变……
vibe coding 的出现,这是一种范式,非技术用户通过自然语言指示大型语言模型(LLMs)生成可执行代码,预…
我们系统性地测量了七种策略,以在小型本地模型可以作为前置分流层的情况下,减少云端 LLM 的 token 使用量。
大型语言模型(LLMs)可以根据自然语言生成代码,但它们在多大程度上捕捉到预期的程序行为仍不清楚。Executable...
我们研究在网络上进行去中心化学习的情形,其中数据分布在各节点上,没有中心协调者。Random walk learning 是一种基于 token 的方法……
深度神经网络尽管具有很高的准确率,但往往表现出置信度校准不足,限制了它们在高风险应用中的可靠性。当前的…
我们提出 (Experience‑Modulated Biologically‑inspired Emergent Reasoning),一种混合认知架构,重新组织大型语言模型之间的关系……
现代机器学习方法已被提出用于检测外星样本中的生命,利用其区分生物性与非生物性样本的能力。
在3D计算机视觉中,寻找图像之间的匹配关键点是一个核心问题。然而,现代匹配器在处理大幅平面旋转时表现不佳。A straightfo...
自主离网光伏系统的稳定运行要求依赖遵循大气热力学的太阳能预测算法。Cont...
在本工作中,我们研究了人-物交互视频生成(Human-Object Interaction Video Generation,HOIVG),其目标是基于 t 合成高质量的人-物交互视频。
利用诸如大五人格等心理构念,大语言模型(LLMs)可以模仿特定的个性特征并预测用户的个性。Wh...
我们提出了 SyncFix,一个在基于扩散的重建场景细化过程中强制跨视图一致性的框架。SyncFix 将细化……
Tool-augmented Large Language Model (LLM) agents 已经展示了在自动化复杂、多步骤真实世界任务方面的惊人能力,但仍然存在脆弱性……
High dynamic range (HDR) 图像提供了对场景辐射的丰富且忠实的表示,但由于其不匹配……,对 generative models 仍然具有挑战性。
大型多模态模型(LMMs)在通用视觉-语言理解方面取得了显著进展,然而,它们在需要 p... 的任务上仍然受限。
对 open-play soccer tactics 的建模是一项艰巨的挑战,因为比赛具有 stochastic、multi-agent 的特性。现有的计算方法通常 p...
语言变化既反映又塑造社会过程,而基础概念的语义演变提供了历史和社会的可衡量痕迹。
Kullback-Leibler (KL) divergence 是信息论中的一个基本概念,用于量化两个概率分布之间的差异。在 the co...
通用一阶方法(GFOM)是一类灵活的迭代算法,通过矩阵‑向量乘法和逐元素非线性操作来更新状态向量。
Spiking Transformers 将 Transformers 的可扩展性与 Spiking Neural Networks (SNNs) 的稀疏、节能特性相结合,已实现……
随着高性能计算和 AI 工作负载日益依赖 GPU,保持在快速演进的硬件代际中的高性能……
云原生架构是关于构建和运行可扩展的微服务应用,以充分利用云环境。托管的 Kubernetes …
背景:受哈佛训练的神经科学家、前哈佛医学院教授 Gideon Kreiman 正在领导一家初创公司,旨在为人类提供“完美且……”。
本周在旧金山举办的 HumanX AI 大会上,成千上万的科技专业人士聚集在 Moscone Center,讨论 agentic AI 正在如何重塑 bu...
问题:Intelligence ≠ Empathy 现代 AI 在海量数据集上进行训练,并通过诸如 reinforcement learning from human feedback 等技术进行精炼。Mo...
厌倦了花费数小时手动测量照片、查找材料价格并计算报价吗?对于handyman业务来说,这类后台工作是一个主要的痛点……
Agent Development Kit ADK SkillToolset 引入了一种 “progressive disclosure” 架构,使 AI 代理能够按需加载领域专长,从而降低……
Orbax 和 MaxText 中新引入的 continuous checkpointing 功能旨在优化模型训练过程中的可靠性与性能之间的平衡。
在上一篇文章 https://dev.to/rijultp/understanding-transformers-part-4-introduction-to-self-attention-45bg 中,我们探讨了 self‑attention 概念用于 t...
安全借口:Mythos 营销活动的核心是其“zero‑trust”安全架构。Anthropic 坚称该模型的设计旨在 opera...
图像分类听起来很容易,直到你记得计算机从不直接看到“对象”。它只看到像素数组。本文解释了这为何使得 k‑NN 成为一种…
MLP = 一个函数而不是层 大多数人认为神经网络是层的堆叠,但他们错了。 一个 MLP 是:y = f(x); θ 👉 一个可学习的函数。 从简单开始……
概述:每次我向ChatGPT询问一些简单的问题时,它都会给出干净、直接且自信的答案。我觉得这非常可疑。真正的思考并不是这样……
真正的问题:低 training loss ≠ 好 model。真正的目标:generalization。Optimization = Learning。Optimization 通过更新 parameters 来降低 loss。没有…
《The New Yorker》对 OpenAI CEO Sam Altman 的人物特写的插图是一种惊吓效果。Altman 身穿蓝色毛衣,表情空白。围绕在他头部的……
封面图片:Building Igris:打造我的个人 AI Agent 与 Knowledge Codex https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto...
“我们评估的每个 frontier model 在整个 season 都亏损,且许多出现了 ruin,” 论文作者如此总结,并指出 AI “systematically underp...”
!https://www.bleepstatic.com/content/hl-images/2023/03/24/ChatGPT-logo.jpg OpenAI 已推出一项新的 Pro 订阅,费用为 100 美元,匹配 Anthropic 的 Claude…
大型语言模型(LLMs)拥有固定的知识,因为它们是在特定时间点进行训练的。软件工程实践节奏快且经常变化,伴随……