· devops
[论文] MemFine:内存感知细粒度调度用于 MoE 训练
大规模专家混合(Mixture of Experts,MoE)模型的训练面临着由于动态 token 路由导致的严重负载不平衡而产生的关键内存瓶颈。Thi...
大规模专家混合(Mixture of Experts,MoE)模型的训练面临着由于动态 token 路由导致的严重负载不平衡而产生的关键内存瓶颈。Thi...
遥感变化描述是一个新兴且受欢迎的研究任务,旨在用自然语言描述已发生变化的感兴趣内容……
文本属性图需要模型能够有效地将强大的文本理解与结构化推理相结合。现有方法要么依赖 …
深度神经网络(DNN)和 Kolmogorov‑Arnold 网络(KAN)因其灵活性和表达能力而成为函数逼近的热门方法。然而……
在标准 Transformer(TF)架构中,刚性且统一的计算分配可能限制其效率和可扩展性,尤其是在大规模……
最近的分而治之推理方法,尤其是基于思路链(Chain-of-Thought,CoT)的方式,显著提升了 Text-to-SQL 的能力……
Lindsey(2025)通过四项实验研究语言模型的内省意识,发现模型有时能够检测并识别注入的……
Web 自动化利用智能代理通过模仿人类与网页界面的交互来执行高级任务。尽管最近的 La...
‘以图像思考’已成为推进视觉推理的有效范式,通过注入视觉证据,超越仅文本的思考链……
单元测试是一种必不可少但又费时的技术,用于验证软件并降低回归风险。虽然经典的自动化方法能够有效地…
在不同数据集之间自动化适配软件工程(SE)研究制品对于可扩展性和可重复性至关重要,但它仍然是一个庞大的挑战...
时空视频定位(STVG)需要根据自然语言描述,在未剪辑的视频中同时在时间和空间上定位目标对象。