[Paper] 无文字思考:使用抽象 Chain-of-Thought 的高效潜在推理
虽然冗长的、明确的思维链(chains-of-thought,CoT)已被证明在复杂推理任务上有效,但在推理时生成它们成本很高。非语言推理……
4576 posts from this source
虽然冗长的、明确的思维链(chains-of-thought,CoT)已被证明在复杂推理任务上有效,但在推理时生成它们成本很高。非语言推理……
呼吸气流信号提供了对呼吸力学的关键洞察,但传统分析方法在表征方面仍然受限……
在大型语料库中选择一个小而高质量的子集用于微调变得越来越重要,因为语料库规模已增长到数千万个数据点,使得 …
我们提出了 SS3D,一个基于 SfM 的大规模网络自监督预训练流水线,用于从单目视频进行前馈 3D 估计。我们的模型联合预测深度……
在招聘中日益采用 AI 系统引发了对算法偏见和问责制的担忧,促使监管响应,包括欧盟 AI 法案……
图神经网络在节点分类准确率方面表现出色,但它们学习到的信息传递将 ego attributes、neighborhood smoothing、high-pass 等纠缠在一起。
Shapley values 是可解释 AI 的基石,但它们在各种竞争性表述中的激增导致了一个碎片化的局面,几乎没有共识……
编写代码在软件开发中需要大量时间和精力。为了自动化这一过程,研究人员在使用 Large Language Models 方面取得了显著进展。
单视图 3D 形状检索是一个基础且具有挑战性的任务,随着可用 3D 数据的增长,其重要性日益提升。现有方法...
软件验证的倡导者认为,代码简洁性与验证代码所需的工作量有关,假设形式验证器产生更少的 false…
目标:从脑电图(EEG)解码视觉信息是神经科学和脑机接口(BCI)研究中的重要问题。Ex...
Mutants 在测试和调试中支持两种角色:(i) 作为测试目标,(ii) 作为真实错误的替代品。难以杀死的 Mutants 能提供更好的指导……
近期在大型语言模型方面的进展显著提升了各类任务的表现,包括用于评估的数学推理。
我们研究深度网络在医学影像中是否学习到有用的 nonrobust features —— 这些是不可被人类解释且高度易感的 predictive input patterns……
自主代理系统(如 OpenClaw)由于长上下文输入和多轮推理,引入了显著的效率挑战。这导致了 prohi...
大型语言模型(LLMs)能够进行良好的推理,但在长且噪声较多的上下文中,关键证据往往被埋藏,从而被忽略。我们提出了 HiLight,一种 Evidence Emph…
公共云越来越多地提供异构硬件,但它们的分配接口仍然围绕刚性的 on‑demand 和 spot 服务类别构建。这使得……
AI 助手能够日益生成并演化测试用例。挑战不再仅仅是产生它们,而是还要帮助工程师理解为什么 a ge...
Microservice 是一种流行的软件架构,依赖去中心化的团队和明确的服务所有权来支持模块化和可扩展性。然而,i...
我们引入 HubRouter,一个可插拔模块,用于将 O(n^2) 注意力层替换为 O(nM) 的 hub‑mediated 路由,其中 M << n 是一个很小的学习数量……
Coflow 已成为分布式系统中一种基本的应用层抽象,表示通信依赖并实现协作式 man...
联邦学习(FL)在无服务器平台上的聚合面临硬性的可扩展性上限:现有架构(lambda-FL、LIFL)将客户端划分到 …
Kolmogorov-Arnold Networks(KANs)是一种近期的神经网络架构,提供了相较于多层感知器(MLPs)更好的可解释性替代方案……
多任务优化是一种强大的方法,可并行求解大量任务。然而,现有算法面临着明显的局限性:Populati...
我们如何判断一个视频是被加速还是减速的?我们如何生成不同速度的视频?虽然视频已经成为现代通信的核心……
Streaming Continual Learning(CL)通常通过时间划分将连续流转换为离散任务序列。我们认为这种…
自动语音识别(ASR)传统上使用词错误率(WER)进行评估,这一指标对意义不敏感。基于嵌入的语义度量…
持续学习(Continual Learning,CL)研究模型如何按顺序获取任务,同时保留先前学到的知识。尽管在基准测试方面取得了显著进展……
理解人类活动及其周围环境通常依赖视觉感知,但摄像头在隐私、安全方面仍然带来持续的挑战,...
我们研究批量设置中 multicalibration 的 minimax 样本复杂度。学习者观察到来自未知分布的 n 个 i.i.d. 样本,并且必须输出……
我们提出 Omni,一个统一的多模态模型,原生训练于多种模态,包括文本、图像、视频、3D 几何和隐藏表示。我们 ...
我们提出了 CrossCommitVuln-Bench,这是一个精心策划的基准,包含 15 个真实世界的 Python 漏洞(CVE),其中可利用条件跨多个提交被引入。
随着前沿语言模型在静态数学基准上取得接近天花板的表现,现有评估手段日益难以区分模型之间的差异。
我们提出了 Vista4D,一个稳健且灵活的视频再拍摄框架,将输入视频和目标摄像机定位在 4D 点云中。具体而言,给定一个…
尽管大型视觉语言模型(LVLMs)的能力取得了令人印象深刻的进展,这些系统仍然容易出现幻觉,即输出是 n...
科学工作流系统自动化执行——调度、容错、资源管理——但不包括其前置的语义转换。Scienti...
人类和现代视觉模型可以达到相似的分类准确率,但它们系统性地犯不同类型的错误——区别不在于错误出现的频率……
Low-rank adaptation (LoRA) 已成为基础模型参数高效微调 (PEFT) 的事实标准,使得对 bill...
近年来,图像生成和生成图像检测都取得了显著进展。尽管它们发展迅速,却在很大程度上仍相互独立。
深度学习视频超分辨率发展迅速,但气候应用通常只在空间或时间上进行超分辨率(提升分辨率),而且……
随着模型规模的持续增长,参数高效微调已成为全微调的强大替代方案。虽然 LoRA 在 …
全球的 Research computing centers 在为新用户进行 onboarding 时面临困难。Subject matter experts、研究人员和 principal investigators 经常被…
对立法行为的分析常常依赖投票记录,忽视了政治演讲中丰富的语义和修辞内容。在本文中,我们提出…
本文提出了一种用于 AI 游戏编程的新范式,利用大型语言模型(LLMs)来扩展并实现 Claude Shannon 的分类法……
地理背景通常被认为与 motor insurance 风险相关,但公共 actuarial 数据集提供的地点标识有限,限制了对此的……
保持电力供需的瞬时平衡对于可靠性和电网不稳定性至关重要。系统运营商通过……实现此目标。
事件抽取从文本中识别事件的核心要素。它支持事件理解和分析,这对于诸如知情决策等任务至关重要。
实时检测和缓解技术异常对于大规模云原生服务至关重要,因为即使几分钟的停机也可能导致 massi...