[Paper] DeepResearchEval:一个用于深度研究任务构建和Agentic评估的自动化框架
Deep research systems 被广泛用于 multi-step web research、analysis 和 cross-source synthesis,但它们的评估仍然具有挑战性。Existing benc...
Deep research systems 被广泛用于 multi-step web research、analysis 和 cross-source synthesis,但它们的评估仍然具有挑战性。Existing benc...
多任务学习(MTL)结合低秩适应(LoRA)已成为参数高效部署大型语言模型的有前景的方向。
现代供应链正日益面临来自地缘政治事件、需求冲击、贸易限制以及自然灾害的中断。虽然许多...
我们推出 STEP3-VL-10B,这是一款轻量级开源基础模型,旨在重新定义紧凑效率与前沿水平多模态之间的权衡……
Multi-agent systems 已经发展成为许多应用中的实用 LLM 驱动协作者,通过多样性和交叉检查获得了鲁棒性。然而,m...
单目视觉SLAM能够从互联网视频进行3D重建,并在资源受限的平台上实现自主导航,但却受到尺度漂移的影响,…
在长时段视频中识别单个动物对于行为生态学、野生动物监测和畜牧管理至关重要。传统方法 r...
大规模视觉语言模型(如 CLIP)能够实现强大的零样本识别,但在预训练期间很少见到的类别上表现不佳,包括……
从单张图像估计物理上准确、simulation-ready 的服装具有挑战性,因为缺乏 image-to-physics 数据集,并且该问题是病态的 n...
表格基础模型(TFMs)最近在结构化数据上展示了强大的上下文学习能力,实现了与 t... 相媲美的零样本性能。
词义消歧(WSD)已广泛使用 WordNet、BabelNet 和 Oxford Dictionary of English 等语义框架进行评估。然而,对于...
文本到图像(T2I)模型日益流行,产生了大量在线的 AI 生成图像。为了比较模型质量,基于投票的排行榜……
虽然 GUI 代理在明确指令和完成指令下表现出强大的性能,但在实际部署中需要与用户更复杂的实现保持一致。
大规模优化是现代商业决策的关键支柱。然而,构建这些模型往往劳动密集型且耗时。我们…
Taxonomies 构成了跨多个领域的结构化知识表示的骨干,使得 e‑commerce catalogs、semantic search 等应用成为可能,…
高效地优化电池充电协议具有挑战性,因为每次评估都慢、成本高且不可微分。许多现有方法……
神经网络通常在高度过参数化的 regime 中进行训练,然而实证证据始终表明,许多参数在...期间会变得冗余。
复现 system-level concurrency bugs 需要 input data 和 system calls 的精确 interleaving order。这个过程具有挑战性,因为这样的 …
科学工作流管理系统(SWfMS),如 Nextflow,已成为进行可重复、可扩展和可移植的 c...
实验性的机器人优化通常需要对每个候选策略进行数秒到数分钟的评估。所选择的评估时间会影响优化,因为...
本文介绍了SiliconHealth,一个面向资源受限地区,特别是撒哈拉以南地区的综合区块链医疗基础设施。
本文介绍了SiliconHealth,一个面向资源受限地区,特别是撒哈拉以南地区的综合区块链医疗基础设施。
面向领域的元数据模式对于提升研究软件的可发现性和可重用性,以及遵循 FAIR4RS 原则至关重要。然而,ma...
深度学习库如 Transformers 和 Megatron 现在已在现代 AI 程序中被广泛采用。然而,当这些库出现缺陷时,范围从...