[Paper] Vero:通用视觉推理的开放RL配方
要构建一个能够跨图表、科学、空间理解和开放式任务的 visual reasoner,需要什么条件?最强大的 vision-language model……
4611 posts from this source
要构建一个能够跨图表、科学、空间理解和开放式任务的 visual reasoner,需要什么条件?最强大的 vision-language model……
图像空间编辑执行几何驱动的变换,允许对对象布局和相机视角进行精确控制。当前模型不足……
专有 AI 系统最近在复杂的基于证明的问题上展示了令人印象深刻的能力,据报道在 2025 Inte... 中实现了 gold-level performance。
可验证奖励的强化学习(RLVR)显著提升了大型语言模型(LLMs)的推理能力。然而,它面临着…
梯度归一化在深度学习优化中至关重要,因为它能够稳定训练并降低对尺度的敏感性。对于深层架构,参数…
区块链生态系统面临一个显著的流动性碎片化问题,因为应用和资产分布在多个公链上,每个链仅...
随着大型语言模型代理从软件工程(SWE)任务向机器学习工程(MLE)迈进,验证代理行为变得……
将统计方法转化为可靠的软件是定量研究中的一个持续瓶颈。现有的 AI 代码生成工具能够快速生成代码……
我们介绍 Full-Duplex-Bench-v3 (FDB-v3),这是一套用于在自然语音条件下评估口语语言模型以及多步骤工具使用的基准。Unli...
神经机器翻译(NMT)从中文到低资源的东南亚语言仍受到干净平行语料极度稀缺的严重限制。
大型语言模型(LLMs)正日益被用作量化研究的副驾驶,将自然语言的策略规范转换为可执行的…
现有的微服务依赖模拟方法——record-replay、pattern-mining 和 specification-driven stubs——在测试之前生成静态工件……
平衡 spiking 网络可以根据相互作用的突触和时间尺度在 silent、asynchronous‑irregular 和 oscillatory 状态之间转换。
Optimistic rollups 提供可扩展的 smart-contract 执行,但由于三个结构性缺口,仍不适用于受监管的金融应用:semantic l...
GPU 正在成为数据中心功耗的主要贡献者,但与 CPU 不同,即使在可见活动几乎为零时,它们仍可能保持高功耗。我们称之为……
机器学习模型,尤其是深度神经网络,正日益在诸如医疗保健、环境预测等风险敏感领域中得到部署,……
现有的针对约束多目标优化问题(CMOPs)的 evolutionary algorithms 通常对所有约束一视同仁,忽视了它们的…
同理心已被讨论为软件工程中的一种相关人类能力,特别是在需要理解用户、利益相关者以及……时。
我们研究在 T‑interval‑connected 图中单个代理的确定性探索,这是一种标准的动态网络模型,其中对于每个长度为…的时间窗口,…
在科学计算和现代机器学习(ML)工作负载中,依赖的通用矩阵乘法(GEMM)序列通常占据执行时间的主要部分……
NBI‑Slurm 是一个 Perl 包,提供了一个简化的、用户友好的界面,用于在 SLURM 高性能计算(HPC)集群上提交和管理作业。
自然启发的元启发式算法的快速增长暴露出一种持续的差距,即隐喻的新颖性与真正的算法进步之间的差距。受 t 的驱动,...
Developers utilize third-party libraries to improve productivity, which also introduces potential security risks. Existing approaches generate tests for public ...
Generative AI(GenAI)工具正日益被整合到软件架构研究中,但其计算使用的环境影响仍然是...
Parent selection methods 在 evolutionary computation 中被广泛使用,以加速优化过程,然而它们的理论收益仍然缺乏充分的理解。
虽然 coding agents 在协作软件开发中引入了新的 coordination dynamics,但实践中的详细交互仍未得到充分探索,……
软件测试研究传统上依赖于封闭世界假设,例如有限状态空间、可复现的执行和稳定的测试预言机。H...
区块链上的自主软件代理通过读取共享账本状态而不是交换直接消息来解决分布式协调问题。Liquidat...
DAG‑Rider 推广了一种新的 DAG‑BFT 协议范式,将传播与共识分离:所有节点将交易以引用 … 的区块形式进行传播。
随着云环境日益复杂,网络安全和取证调查必须发展以应对新兴威胁。大型语言模型(LLMs)……
Federated learning (FL) 使多个客户端能够通过服务器协作训练全局机器学习模型,而无需共享其私有训练数据。
DDCL-Attention 是一种基于原型的 readout 层,适用于 transformer 编码器,它用一个 le… 替代了简单的 pooling 方法,例如 mean pooling 或 class tokens。
下一代测序(NGS)是研究生物体 DNA 和 RNA 的关键技术。然而,在不同…之间识别 NGS 数据的质量问题。
约束多目标优化需要快速实现可行性,并在严格评估下实现稳定收敛和多样性保持。
Hyper-heuristics 已成为解决动态柔性作业车间调度(DFJSS)问题的热门方法。它们使用无梯度优化技术……
Spiking Neural Networks (SNNs) 为实现能效高的边缘智能提供了有前景的解决方案;然而,它们的硬件部署受到内存开销的限制。
终身学习 (lifetime learning) 能在进化时间 (evolutionary time) 上扩大行为多样性 (behavioral diversity),而不是使其坍缩吗?先前的理论预测,plasticity 通过降低 variance 来……
近期的视觉语言模型(VLMs)通常依赖于使用对比图像‑文本目标进行训练的单一视觉编码器,例如 CLIP‑style 预训练。W...
本文探讨了服务器学习在提升联邦学习对恶意攻击的鲁棒性方面的应用,即使在客户端的训练数据……
大多数近期的生成式图像超分辨率(SR)方法依赖于对在网络规模文本‑图像数据上预训练的大型文本到图像(T2I)扩散模型进行适配……
非增强胸部CT为常规肺部筛查和机会性肺外筛查提供了丰富的机会。虽然 Multi-Task Learning (MTL) 可以……
遥感分割在实际部署中本质上是持续的:新的语义类别不断出现,获取条件随季节、城市等而变化……
模型预测控制(MPC)结合学习的世界模型已成为一种有前景的具身控制范式,尤其因其在泛化方面的能力……
三维医学影像数据和计算机辅助决策,特别是使用 deep learning,正变得在医学领域日益重要。
Agentic AI 正在越来越多地不只是通过流畅的输出进行评判,而是看它是否能够在部分可观测性、延迟和战略性…的条件下进行行动、记忆和验证。
所有先前针对微调语言模型的成员推断攻击都使用手工设计的启发式方法(例如,loss thresholding、Min‑K%、reference calibration),每……
本文回顾了 NTIRE 2026 年关于高效单图像超分辨率的挑战,重点关注所提出的解决方案和结果。该挑战的目标是……
过去几十年来,随着对健康监测和心血管疾病早期检测需求的增加,心血管建模迅速发展……