[Paper] POET-X:通过缩放正交变换实现内存高效的 LLM 训练
高效且稳定地训练大型语言模型(LLMs)仍然是现代机器学习系统的核心挑战。为了解决这一挑战,Reparamete...
3122 posts from this source
高效且稳定地训练大型语言模型(LLMs)仍然是现代机器学习系统的核心挑战。为了解决这一挑战,Reparamete...
我们研究 Transformer 语言模型中的两种重复出现的现象:大规模激活,其中少量 token 在少数通道中表现出极端离群值……
我们提供了在推理模型中表现性链式思考(CoT)的证据,其中模型对其最终答案非常自信,但仍继续gene...
随着 AI 模型从简单的聊天机器人发展到更复杂的工作流,我们正日益接近那条事件视界——在那之后,AI 系统将被用于……
虽然用于视频理解的数据集已经扩展到小时级时长,但它们通常由密集拼接的片段组成,这些片段与自然的、未剪辑的...
从右删失生存数据中估计异质治疗效应(HTEs)在精准医学和个体化治疗等高风险应用中至关重要。
奇异统计模型——包括混合模型、矩阵分解和神经网络——由于参数不可辨识以及 d...
高光谱图像(HSI)有许多应用,范围从环境监测到国家安全,可用于材料检测和识别……
低资源语言的阅读理解系统在处理不可回答的问题时面临重大挑战。这些系统往往会产生不可靠的……
当前的视频生成模型无法模拟3D动作的物理后果,如力和机器人操作,因为它们缺乏结构理解……
推理模型会大声思考,但它们说的大部分是噪声。我们介绍 OPSDC(On-Policy Self-Distillation for Reasoning Compression),一种方法……
编写高效的分布式代码仍然是一项劳动密集且复杂的工作。为了简化应用程序开发,Flexible Computational Science Infra...
实时城市规模的交通分析需要在严格的延迟、带宽和计算限制下处理数百至数千个 CCTV 流。我们提出了一种可扩展的……
Prompt tuning 已成为提升 Large Language Models (LLMs) 在下游任务上性能的显著策略。许多 IT 企业现在提供 P...
了解贡献者参与社区问答平台的动机对于维持知识共享生态系统至关重要,...
构建软件仓库通常需要大量人工工作。最近在大型语言模型(LLM)代理方面的进展加速了自动化……
这是《Semantic Arrow of Time》五部系列的最后一篇论文。第一部分指出了FITO范畴错误——将前向时间流视为…
这是《The Semantic Arrow of Time》五篇论文中的第四篇。第一至第三部分已经确立,计算的隐藏时间箭头是语义性的,而不是……
Python 的 Global Interpreter Lock 阻止了在多个 CPU 核心上同时执行,即使使用了多个线程也是如此。然而,从 Python ... 开始。
这是《时间的语义箭头》五篇论文中的第三篇。第一部分和第二部分确定了计算的隐藏语义时间箭头,即FITO类别 m……
代码生成已成为 AI 最具影响力的应用场景之一,然而现有基准测试衡量的是孤立任务,而非完整的“零到一”过程……
Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……
光学瞬态的发现率将在 Vera C. Rubin 天文台的 Legacy Survey of Space and Time 启动后激增至每晚 1000 万条公开警报。
前馈Transformer模型推动了3D视觉的快速进展,但诸如VGGT和π³等最先进的方法的计算成本随……