· ai
[Paper] 预测概念解码器:训练可扩展的端到端可解释性助手
解释神经网络的内部激活可以提供更忠实的行为解释,但由于其复杂结构,这一过程十分困难……
解释神经网络的内部激活可以提供更忠实的行为解释,但由于其复杂结构,这一过程十分困难……
我们提出了 Gaussian Pixel Codec Avatars(GPiCA),一种可以从多视角图像生成并在移动设备上高效渲染的逼真头部化身。
本文提出了一种双引擎 AI 架构方法,旨在解决探索艺术演化潜在轨迹的复杂问题。W...
Foundation模型是各种Computer Vision应用中的重要工具。它们以单张RGB图像为输入,输出一个深层特征表示,...
Active Speaker Detection(ASD)旨在识别视频中每一帧当前正在说话的人。大多数最先进的方法依赖于late fusion来组合……
在相互作用的生物体数学模型中,外部干预可能随时间改变行为,传统模型假设固定参数……
Early-Exit(EE)是一种 Large Language Model(LLM)架构,通过仅使用模型的子集来生成更容易的 token,从而加速推理。
自回归视频扩散模型在世界模拟方面具有潜力,但容易受到由训练-测试不匹配导致的曝光偏差的影响。虽然最近的...
包含人类偏好的图像压缩性能评估普遍发现,诸如 MSE 之类的朴素失真函数不足以……
我们介绍 FrontierCS,这是一个包含 156 个开放式问题的基准,覆盖计算机科学的多个领域,由专家设计和审阅,包括计算机科学博士等。
AI驱动的视频生成技术的滥用已经引发了严重的社会担忧,凸显出对可靠的AI生成视频检测器的迫切需求……
当前用于机器人操作的 Vision-Language-Action Models (VLAs) 基于在大规模但相互独立的视觉-语言骨干网络上进行预训练。