[Paper] 实用框架用于隐私保护和拜占庭鲁棒的联邦学习
联邦学习 (Federated Learning, FL) 允许多个客户端在不共享其私有数据的情况下协同训练模型。然而,FL 易受到拜占庭攻击...
联邦学习 (Federated Learning, FL) 允许多个客户端在不共享其私有数据的情况下协同训练模型。然而,FL 易受到拜占庭攻击...
在过去的几年里,AI行业一直专注于scale——更大的模型、更多的parameters、更长的context windows。这种关注在一段时间内是有道理的,但……
Depth-of-field 控制在摄影中至关重要,但要获得完美的焦点往往需要多次尝试或特殊设备。Single-image refocusing 仍然是……
我们提出 WorldCanvas,一个用于可提示世界事件的框架,通过结合文本、轨迹和参考图像,实现丰富的、用户导向的模拟。
受生成式预训练在自然语言领域成功的启发,我们探讨相同的原理是否能产生强大的自监督视觉学习者。Inst...
传统的多模态大语言模型(MLLM)评估方法缺乏可解释性,且往往不足以充分揭示跨…的显著能力差距。
从视觉输入感知和重建 3D 场景几何对于自动驾驶至关重要。然而,目前仍缺乏针对驾驶任务的稠密几何。
虽然 image editing 发展迅速,但 video editing 仍然较少被探索,面临 consistency、control 和 generalization 的挑战。我们研究了设计...
最近的研究表明,多模态大型语言模型(MLLMs)受益于与视觉工具交互的多模态交叉链式思考(CoT)。
Large language models (LLMs) 具备显式推理能力,在数学推理方面表现出色,但仍会出现过程错误,例如计算错误……
立体显示技术的快速增长,包括 VR 头盔和 3D 影院,导致对高质量立体视频内容的需求不断增加。然而,pr...
先前研究调查大型语言模型(LLMs)的内部工作原理时,发现了稀疏子网络,通常称为 circuits,负责执行……