[Paper] ReCap:轻量化指涉式 Grounding 用于连贯故事可视化
Story Visualization 旨在生成一系列图像,忠实地描绘文本叙事,保持角色身份、空间配置、...
4592 posts from this source
Story Visualization 旨在生成一系列图像,忠实地描绘文本叙事,保持角色身份、空间配置、...
大型语言模型通过强化学习与可验证奖励(RLVR)实现了显著的推理改进。然而,随着模型能力的...
尽管最近取得了进展,vision-language encoders 仍面临两个核心限制:(1) 语言与 dense vision features 之间的对齐较弱,这会导致……
在本工作中,我们重新审视了主动序列预测驱动的均值估计问题,其中在每一轮都必须决定 g 的查询概率……
大型语言模型在生成过程中经常会出现不可恢复的推理错误:一旦出现错误的步骤,后续的 token 会进一步加剧错误……
Video world models 在模拟用户或代理的动作所导致的环境动态方面取得了显著成功。它们被建模为动作‑…
最近的一项研究(Kuribayashi 等,2025)显示,人类的句子处理行为,通常在句法上不具挑战性的结构上进行测量,ca…
可控协作类人操作是具身智能的一个基础且具有挑战性的问题,因为数据极度稀缺,复杂性在……
权重量化已成为高效 LLM 部署的标准工具,尤其是在本地推理中,模型现在常规以 2-3 位的精度进行服务,p...
隐私政策旨在向用户说明软件系统如何收集和处理数据,但它们往往仍然模糊或不完整。本文提出...
对模型输出的验证正迅速成为大语言模型(LLMs)在训练和实际部署中的关键原语。实际上,t...
构建用于训练和评估爪状代理的环境仍然是一个手工、耗费人力的过程,难以规模化。我们认为,需要……
本文研究了如何将经验性的对话流统计信息纳入下一对话行为预测(NDAP)。提出了一种 KL 正则化项,...
主题驱动的文本到图像合成的快速进展,尤其是 DreamBooth,使得一个无需同意的深度伪造流水线成为可能:对手只需要…
随着现代 LLM 支持数千到数百万个 token,KV 缓存会增长到数百 GB,给内存容量和带宽带来压力。现有的解决方案,...
静态代码分析(SCA)工具被广泛用作检测软件系统中错误和漏洞的有效手段。然而,由……生成的报告...
Uniform Discrete Diffusion Model(UDM)最近作为一种有前景的离散生成建模范式出现;然而,它与强化学习的结合……
Open-weight language models 可以通过多种不同的干预方式变得不安全,但 resulting models 在能力上可能有显著差异,be...
大型语言模型(LLMs)在检索增强生成(RAG)中被广泛使用,以在推理阶段加入外部知识。然而,当检索……
基于图的代码索引可以通过保留调用链和依赖关系来提升针对 LLM‑based code agents 的上下文检索,而关键词搜索……
游戏开发位于创意设计与复杂软件工程的交叉点,需要对游戏引擎、实时…
Molecular biology 具有众多蛋白质复合体,它们以相互交错的方式协同工作,以实现不同的功能。Adaptive evolution 解释了……
持续集成和部署(CI/CD)工作流是现代软件交付的核心,但在这些工作流中运行的自主 AI 机器人的可靠性……
基于大型语言模型(LLM)的调试系统可以生成故障解释,但这些解释可能不完整或不正确。误导性的解释……
最近,面向代码的大型语言模型(LLMs)在将自然语言翻译为可执行代码方面展示了强大的能力。Text-to-SQL 是……
安全关键系统的早期规格通常以自然语言表达,这使得难以推导出适用于 ... 的形式化属性。
大型语言模型正快速演变为能够进行端到端网页编码的交互式编码代理,然而现有的基准仅评估狭窄的切片……
在黑箱优化中,一个核心问题是针对给定的、之前未见过的问题应该使用哪种算法。然而,选择单一算法却…
我们研究 magnitude 作为一种新的单值且严格帕累托兼容的质量指标,用于评估多目标优化中有限近似集合对帕累托前沿的逼近。
使用诸如 CXL memory pools 之类的分离式或远程内存系统重新激发了对近数据处理(Near-Data Processing,NDP)的兴趣:将核心置于靠近内存的位置,以 r...
随着硬件故障(如节点丢失)变得越来越常见,MPI 程序员可能希望将易受影响的数据保存在弹性存储中。虽然 third-party st...
关键基础设施日益依赖互联且软件驱动的网络物理系统(CPS),使运营过程面临意外……
在现代 distributed systems 中,高效的 resource allocation 是保持 scalability、降低 operational costs 并确保 fast execution 的关键方面,即使……
我们研究直径为二的同步网络中 leader election 的消息复杂度。我们的主要贡献是对随机算法的精细分析……
matrix-free gather-batched-GEMM-scatter 模式消除了三维 SIMP 拓扑优化中的 global stiffness assembly,但传统的 ...
进化算法的可扩展性是指评估其性能随着问题规模的增加而如何变化。在多目标优化领域,...
现代深度学习工作负载通常由许多小的 tensor 操作组成,尤其是在 inference、attention 和 micro‑batched training 中。在这些场景下,...
现有的大语言模型(LLM)分解工作主要关注提升下游任务的性能,但它们忽视了并行推理的不足……
现代多GPU HPC系统提供了巨大的计算能力,但低效的GPU分配常导致能源浪费和利用率不足。在实践中...
符号回归(SR)与遗传编程(GP)旨在直接从数据中发现可解释的数学表达式。尽管它在经验上表现强劲……
单调布尔函数是结构上重要的一类布尔函数,但它们受限的形式对可实现的非线性…
大型音频语言模型(Large Audio-Language Models,LALMs)正日益融入日常应用,但它们的生成偏差仍未得到充分研究。现有的语音公平…
尽管进展迅速,用于序列决策的 LLM(即 LLM 代理)仍然难以产生多样化的输出。这导致了探索不足……
一个稳健的用于地球观测的多模态大语言模型(MLLM)应在真实的输入变化下保持一致的解释和推理。...
个性化图像美学评估(PIAA)旨在预测单个用户对图像的主观评分,这需要对用户特定的美学……
未回收的 e-waste 代表了巨大的经济损失。硬盘驱动器(HDD)构成了有价值的 e-waste 流,需要机器人拆解。Automa...
我们提出了一种用于从表格数据文档中进行声明验证的新方法。近期基于 LLM 的方法要么采用复杂的预训练/微调,要么…
乳腺癌诊断需要快速且精确的工具,但传统的组织病理学方法在术中常常不足。Deep Ultraviole...