Source

arXiv

4611 posts from this source

排序:

1个月前 · ai · - · -

[Paper] 更少高斯，更多纹理：4K 前馈纹理化 Splatting

现有的 feed-forward 3D Gaussian Splatting 方法预测 pixel-aligned primitives，导致随着分辨率的提升，primitive 数量呈二次增长。...

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] ShotStream：用于交互式叙事的流式多镜头视频生成

Multi-shot video generation 对长篇叙事讲述至关重要，但当前的 bidirectional architectures 存在交互性受限和高延迟的问题。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] MuRF：释放视觉基础模型的多尺度潜能

Vision Foundation Models (VFMs) 已成为现代计算机视觉的基石，提供了跨广泛任务的鲁棒表示。虽然最近…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] RefAlign：表示对齐用于参考到视频生成

Reference-to-video (R2V) 生成是一种可控视频合成范式，它通过文本提示和参考图像共同约束生成过程。

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] Vega：学习使用自然语言指令驾驶

Vision-language-action 模型已经重塑了自动驾驶，使语言能够融入决策过程。然而，大多数现有的流水线仅……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 驾驶我的方式：视觉-语言-动作模型的偏好对齐用于个性化驾驶

人类驾驶行为本质上是个人化的，它受长期习惯的塑造并受到短期意图的影响。个体在加速方式上存在差异。

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] MegaFlow：Zero-Shot 大位移光流

对大位移光流的精确估计仍然是一个关键挑战。现有方法通常依赖于迭代的局部搜索或/以及领域特…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[论文] PSDesigner：自动化图形设计的类人创意工作流

平面设计是一种创造性和创新性的过程，在电子商务和广告等应用中发挥着关键作用。然而，开发一个自动化…

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 我的击球有多好？量化乒乓球选手的技能水平

评估个人的技能水平至关重要，因为它本质上会塑造他们的行为。然而，量化技能却具有挑战性，因为它是潜在的……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] 通过证据蒸馏和写回增强训练知识库

检索增强生成（RAG）系统中的知识库通常只组装一次，且从不进行修订，即使查询所需的事实是……

#research #paper #ai #machine-learning #nlp
1个月前 · ai · - · -

[Paper] 在无分类器的情况下释放指导用于 Human-Object Interaction Animation

生成逼真的 human-object interaction (HOI) 动画仍然具有挑战性，因为它需要同时建模动态的人体动作和多样的物体……

#research #paper #ai #computer-vision
1个月前 · ai · - · -

[Paper] PackForcing: 短视频训练足以用于长视频采样和长上下文推理

Autoregressive video diffusion models 已经展示了显著的进展，但它们仍然受到难以处理的线性 KV‑cache 增长、时间重复性的瓶颈限制……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] PixelSmile：迈向细粒度面部表情编辑

细粒度面部表情编辑长期受到内在语义重叠的限制。为了解决这个问题，我们构建了 Flex Facial Expression (FFE) 数据集……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] 回归基础：在语音助理时代重新审视 ASR

自动语音识别（ASR）系统在精心策划的基准测试中已达到接近人类的准确率，但在真实环境下的语音助理中仍会在某些条件下失效。

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 自然语言代理利用

Agent 性能日益依赖于 harness engineering，但 harness 设计通常埋藏在 controller code 和 runtime-specific conventions 中，使得 …

#research #paper #ai #machine-learning #nlp
1个月前 · ai · - · -

[Paper] 无需 Hard Negatives：Concept Centric Learning 实现 Compositionality，且不削弱 Contrastive Models 的 Zero-shot 能力

Contrastive vision-language (V&L) 模型仍然是各种应用的热门选择。然而，出现了若干限制，最显著的是…

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

【论文】R-C2：循环一致强化学习提升多模态推理

稳健的感知和推理需要跨感官模态的一致性。然而，当前的multimodal models往往违反这一原则，产生矛盾的……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[论文] 高层次综合的 Agent Factories：通用编码代理在硬件优化方面能走多远？

我们进行了一项实证研究，探讨在没有硬件特定训练的情况下，通用编码代理能够在多大程度上从高级抽象优化硬件设计。

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 眼不见，心不忘：用于动态视频世界模型的混合记忆

Video world models 在模拟物理世界方面展现出巨大的潜力，然而现有的 memory mechanisms 主要将环境视为 static canvases……

#research #paper #ai #machine-learning #computer-vision
1个月前 · ai · - · -

[Paper] S2D2：通过免训练自我推测实现 Diffusion LLM 的快速解码

Block-diffusion 语言模型通过将块级自回归解码与内部...相结合，提供了一条通往比自回归更快生成的有前景的路径。

#research #paper #ai #nlp
1个月前 · ai · - · -

[Paper] 神经网络转换机器学习流水线

迁移学习和知识蒸馏最近在深度学习社区中受到广泛关注。一种迁移方法，学生-教师 l...

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] The Kitchen Loop：用户规范驱动的自演化代码库开发

代码生产现在已经成为商品；瓶颈在于知道该构建什么以及证明它有效。我们提出 Kitchen Loop，一个用于自主、self-的框架。

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[论文] 统一记忆视角下的概率可信AI

可信的人工智能日益依赖概率计算，以实现鲁棒性、可解释性、安全性和隐私。在实际...

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 关于通过持续训练进行天气仿真的 Neural Scaling Laws

Neural scaling laws 在某些领域可以将大型神经网络的性能预测为模型、数据和计算规模的函数，是……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 大语言模型的自我改进：技术概述与未来展望

随着大型语言模型（LLMs）的不断进步，仅通过人工监督来改进它们的成本日益高昂，且可扩展性受到限制……

#research #paper #ai #nlp
1个月前 · ai · - · -

[Paper] 纵向数字表型用于早期认知-运动筛查

早期检测 atypical cognitive‑motor 发展对于及时干预至关重要，然而传统评估过于依赖主观、静态的评估……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] 不确定性引导的标签再平衡用于CPS安全监控

安全监控对Cyber-Physical Systems (CPSs)至关重要。然而，在真实世界的CPS运行中，unsafe events非常罕见，导致出现极端类别的不平衡……

#research #paper #ai #machine-learning
1个月前 · software · - · -

[Paper] SHAPR：通过结构化知识生成实现人机协作研究

SHAPR（Solo Human-Centred and AI-Assisted Practice）是一个用于研究软件开发的框架，它将以人为本的决策与 AI 辅助相结合。

#research #paper #software
1个月前 · ai · - · -

[Paper] RenoBench：引用解析基准

对引用的准确解析是机器可读的学术基础设施所必需的。但是，尽管对这个问题持续关注，现有的评估 t...

#research #paper #ai #nlp
1个月前 · ai · - · -

[Paper] Beyond Via: 大语言模型在学术论文中的影响分析与估计

通过对 arXiv 论文的分析，我们报告了若干词汇使用的变化，这些变化很可能是由大型语言模型（LLMs）驱动的，但此前尚未收到……

#research #paper #ai #machine-learning #nlp
1个月前 · ai · - · -

[Paper] Anchored‑Branched Steady‑state Wind Flow Transformer (AB‑SWIFT)：用于城市环境中三维大气流动的元模型

在局部尺度上的气流建模对于污染物扩散建模或风电场建模等应用至关重要。为了规避昂贵的计算……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] PICon：用于评估Persona Agent一致性的多轮询问框架

基于大型语言模型（LLM）的角色代理正被快速采用，作为跨多个领域的人类参与者的可扩展代理。然而，目前尚无系统…

#research #paper #ai #nlp
1个月前 · software · - · -

[Paper] 通过门优先级进行量子电路修复

修复有缺陷的量子电路具有挑战性，需要自动化的解决方案。我们提出了 QRep，这是一种自动化修复方法，能够迭代地识别和……

#research #paper #software
1个月前 · ai · - · -

[Paper] 重新审视 On-Policy Distillation：经验性失效模式与简单修复

On-policy distillation（OPD）在大语言模型（LLM）后训练中具有吸引力，因为它在学生生成的 rollouts 上评估 teacher feedback，而不是…

#research #paper #ai #machine-learning #nlp
1个月前 · ai · - · -

[Paper] 缺失感知多模态融合用于统一微服务故障管理

自动化事件管理对微服务可靠性至关重要。虽然最近的统一框架利用多模态数据进行联合优化，但它们未……

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[论文] 人类 vs 视觉语言模型：叙事连贯性的统一度量

我们通过比较人类撰写的叙事与视觉语言模型（VLMs）在 Vis… 上生成的叙事，来研究视觉基础故事中的叙事连贯性。

#research #paper #ai #nlp
1个月前 · ai · - · -

[Paper] NERO-Net：一种神经进化方法用于设计对抗鲁棒的CNN

Neuroevolution 自动化了神经网络设计这一复杂任务，但常常忽视了进化模型固有的对抗脆弱性，这成为了……的障碍。

#research #paper #ai #machine-learning
1个月前 · devops · - · -

[Paper] SHADOW：无缝交接与零停机的有状态微服务工作负载编排迁移

在 Kubernetes 中迁移有状态微服务需要仔细的状态管理，因为容器重启时内存中的状态会丢失。对于 StatefulSet‑mana…

#research #paper #devops
1个月前 · software · - · -

[Paper] LACY：使用 Code Tours 模拟专家指导进行软件入职

每个软件组织都面临 onboarding 挑战：帮助新人在复杂的 codebases 中导航，弥补文档不足，并且 compreh...

#research #paper #software
1个月前 · devops · - · -

[Paper] PRISM：基于原语的动态预测用于大规模 GPU 集群工作负载

准确预测 GPU 工作负载对 AI 基础设施至关重要，能够实现高效的 scheduling、resource allocation 和 power management。现代工作负载…

#research #paper #devops
1个月前 · devops · - · -

[Paper] 分布式最小权重环近似的复杂性

我们研究在分布式计算的 mathsf{CONGEST} 模型中的最小权重环（MWC）问题。对于无向加权图，我们设计了一种随机…

#research #paper #devops
1个月前 · devops · - · -

[Paper] 分布式最小权重环近似的复杂性

我们在分布式计算的 mathsf{CONGEST} 模型中研究最小权重环（MWC）问题。对于无向加权图，我们设计了一种随机…

#research #paper #devops
1个月前 · ai · - · -

[Paper] 揭示参与者失效对跨筒仓联邦学习模型质量的影响

联邦学习（Federated Learning，FL）是一种在协作环境中训练机器学习（ML）模型的范式，同时通过将原始数据保留在本地来保护参与者的隐私。

#research #paper #ai #machine-learning
1个月前 · ai · - · -

[Paper] WebTestBench：评估计算机使用代理在端到端自动化网页测试中的表现

大型语言模型（LLMs）的出现催生了编程范式的转变，产生了“vibe coding”，用户可以构建完整的项目……

#research #paper #ai #machine-learning #nlp
1个月前 · ai · - · -

[Paper] 能力阴影：AI 在安全工程中的辅助理论与界限

随着 AI 助手逐渐融入物理 AI 系统的安全工程工作流程，一个关键问题出现：AI 辅助是否能够提升安全分析……

#research #paper #ai #machine-learning
1个月前 · devops · - · -

[Paper] zk‑X509：通过零知识证明实现从传统 PKI 的隐私保护链上身份

公共区块链在监管合规性与用户隐私之间固有地存在张力。现有的链上身份解决方案需要中心化的 KYC 证明……

#research #paper #devops
1个月前 · ai · - · -

[Paper] 影响 AI 生成代码质量的因素：实证证据的综合

背景：AI-assisted code generation tools 的快速采用，例如 large language models (LLMs)，正在改变软件开发实践。虽然…

#research #paper #ai #machine-learning
1个月前 · devops · - · -

[Paper] DFLOP：数据驱动框架用于多模态 LLM 训练流水线优化

多模态大语言模型（MLLMs）通过在统一架构中整合文本、图像和音频理解，取得了显著进展。Ho...

#research #paper #devops

Newer posts

Older posts