[Paper] 递归多智能体系统
递归或循环语言模型最近作为一种新的扩展轴出现,通过在潜在状态上迭代细化相同的模型计算来加深 …
4576 posts from this source
递归或循环语言模型最近作为一种新的扩展轴出现,通过在潜在状态上迭代细化相同的模型计算来加深 …
现实世界的数据可视化(DV)需要本土环境的落地、跨平台的演进以及主动的意图对齐。然而,现有的基准 o...
在仅有输出级监督的后训练阶段,将推理模型适配到新任务时,会在可验证奖励的强化学习(RLVR)下停滞。
身份教师强制(ITF)能够实现对混沌动力系统的确定性递归代理模型的稳定训练,并且在动力学方面表现出极高的有效性。
分布式和神经方法在自然语言语义学中几乎完全建立在传统线性代数之上:vectors, matrices, tensors……
随着 LLM 应用变得日益复杂,开发者越来越多地采用 multi-agent architectures,将工作流分解为专门的、协作的…
持续离线强化学习(CORL)旨在从随时间收集的数据集中学习一系列任务,同时保持对先前任务的性能……
接触变异性、感知不确定性和外部扰动使抓取执行具有随机性。期望质量目标忽略尾部结果,且常常 …
基于偏好的对齐方法,最突出的是人类反馈强化学习(Reinforcement Learning with Human Feedback,RLHF),利用人类标注者的判断来塑造大型语言模型……
对语言模型进行微调可能导致出现性错位(EM)[Betley et al., 2025b]。在狭窄的 misaligned behavior genera 分布上训练的模型……
当前的 deepfake 检测模型在干净的学术数据集上实现了 state-of-the-art 性能,但在真实世界中会出现严重的 spatial attention drift。
当前的人行横道信号采用固定时序,未根据行人行为进行调整,这可能会使易受伤害的道路使用者(VRUs)如……
图神经网络(如 ParticleNet)和基于点云的 transformer 网络(如 ParticleTransformer)在 jet 上实现了最先进的性能。
量子计算校准依赖于对实验数据的解释,而校准图提供了最通用的人类可读表示……
在大规模开源软件(OSS)项目中解决复杂的后期制作问题需要大量的认知努力,因为开发者需要……
通过 reinforcement learning 训练语言模型通常依赖于不完美的 proxy rewards,因为能够精确定义预期行为的 ground truth rewards 并不存在……
大型语言模型(LLMs)正越来越多地用于情感敏感的人机交互应用,但对于情感识别在内部是如何实现的知之甚少。
现有的 REST API 测试工具通常使用 code coverage 和 crash-based fault metrics 进行评估。然而,最近基于 LLM 的方法越来越多地生成…
机器生成文本(MGT)检测需要在不同生成模型之间识别结构上不变的信号,而不是依赖于特定模型的指纹……
多模态大语言模型(MLLMs)在视觉语言任务上取得了越来越强的性能。即使传统的视觉问答基准……
传统的损失函数,包括 cross-entropy、contrastive、triplet 和 supervised contrastive 损失,用于微调预训练语言模型……
Patient simulators 正在 mental health training 中获得关注,因为它们提供了对复杂且敏感的 patient interactions 的可扩展曝光。Simulating depre…
社会身份是心理学中的一个概念,指的是个体身份中源自其群体成员资格的部分。在本文中,我们……
在本工作中,我们提出了 Mutual Forcing,一种用于快速自回归音视频生成并实现长时域音视频同步的框架。我们的做法……
Magnification shift 是实现稳健的 histopathology 分类的主要障碍,因为在一种成像尺度上训练的模型往往在另一种尺度上泛化能力差……
视觉语言模型(VLMs)在指令遵循和开放式视觉语言推理方面表现出色,但它们经常生成流畅的 ...
基于微服务的系统带来了显著的组织协作挑战,然而个人开发者在塑造组织耦合方面的作用(...)。
Knowledge distillation (KD) 是一种广为人知的技术,能够在几乎不牺牲性能的情况下,将大型网络(teacher)有效压缩为更小的网络(student)……
知识蒸馏(KD)是将复杂教师网络的专业知识转移到高效学生模型中的关键机制。然而,在去中心化…
关节建模旨在推断3D对象的可移动部件及其运动参数,从而实现交互式动画、仿真和形状编辑。在……
Federated inference 通过对 distributed model predictions 进行 weighted averaging,提升了 edge computing 中 LLM 的性能。然而,autoregressive LLM inference …
我们提出了用于自动生成和执行系统级测试的 SCenario Specification Language(SCSL)。SCSL 针对复杂的分布式系统(例如……)。
指令式代码编辑是大型语言模型(LLMs)的一个重大挑战。在 EditBench 基准测试中,40 个评估模型中有 39 个实现了任务成功……
源代码及其伴随的注释是互补且自然对齐的模态——代码编码结构逻辑,而注释捕捉开发者意图……
并行扫描原语计算由 p 个连续排名的处理器贡献的输入向量的逐元素包含或排除前缀和,基于关联操作……
形式模型用于并发和分布式系统,描述的是机器;操作这些机器的人要么被忽略,要么被视为外部环境。然而 k...
可再生能源的比重上升不可避免地增加了电力生产的波动性。sector coupling 的概念意味着波动...
时间序列分类是跨多个领域的重要分析任务。然而,由于标签的稀缺,它的实际应用常常受到阻碍。
基于微服务的云应用面临工作负载变化、请求路径演进、网络条件多变、干扰以及故障。这些动态 c...
KV 缓存恢复已成为在服务长上下文 LLM 工作负载时的主要瓶颈,包括多轮对话、检索增强生成……
在 Spark 中,自定义 policy-learning 流水线因两个耦合系统的原因而失败:逐行 Python 执行使推断变得不切实际,以及 driver-side 候选 …
万物互联 (IoE) 代表了物联网 (IoT) 的演进,通过将人、数据、流程和事物整合到一个统一的智能体系中……
Beagle framework 通过 GPU-based Genetic Programming,实现了先前因 CPU 限制而在实际时间范围内无法实现的人口动态。
统一的多模态模型通常依赖预训练的视觉编码器,并为理解和生成使用不同的视觉表征,从而导致误…
近期的 video foundation models 展示了令人印象深刻的 visual synthesis,但常常出现 geometric inconsistencies。虽然现有方法尝试…
Shot Boundary Detection(SBD)旨在自动识别镜头切换并将视频划分为连贯的镜头。虽然SBD在文献中被广泛研究……
Adaptive programming practice 通常依赖于 fixed libraries 的 worked examples 和 practice problems,这需要大量的创作工作,并且可能无法…
虽然 binary classification 在 VC dimension 下的最优 sample complexity 已经得到充分确立,但确定 multiclass classification 的最优 sample complexity …