-
- · ai
Apple 发布开源模型,瞬间将 2D 照片转换为 3D 视图
文章链接: https://github.com/apple/ml-sharp 评论链接: https://news.ycombinator.com/item?id=46401539 得分: 71 评论: 23
- · ai
[Paper] 少看,准看:双向感知塑形用于多模态推理
大型视觉语言模型(VLMs)通常受益于中间视觉线索,这些线索可以通过外部工具注入,或在生成过程中作为潜在视觉标记产生。
- · ai
[Paper] ProEdit:基于反演的编辑,从 Prompt 正确实现
基于逆向的视觉编辑提供了一种有效且无需训练的方式,根据用户指令编辑图像或视频。现有方法通常……
- · ai
[Paper] 通过轨迹-检测匹配学习关联用于多目标跟踪
Multi-object tracking 旨在通过关联跨视频帧的检测来随时间保持对象身份。文献中存在两种主导范式:tr...
- · ai
[Paper] Yume-1.5:文本控制的交互式世界生成模型
最近的方法已经展示了使用 diffusion models 生成交互式和可探索世界的前景。然而,这些方法中的大多数面临着…
- · ai
[Paper] StreamAvatar:用于实时交互式人类化身的Streaming Diffusion Models
实时、流式交互式化身是数字人研究中的关键且具有挑战性的目标。虽然基于 diffusion 的人类化身生成…
- · ai
[Paper] MAI-UI 技术报告:以真实世界为中心的基础 GUI 代理
GUI 代理的开发可能会彻底改变下一代人机交互。受此愿景的激励,我们提出了 MAI-UI,一个 … 系列。
- · ai
[Paper] 基于提示驱动的视频分割基础模型的后门攻击
基于提示的 Video Segmentation Foundation Models(VSFMs),如 SAM2,正日益在自动驾驶和数字病理等应用中部署,……
- · ai
[Paper] Patch-Discontinuity Mining用于通用Deepfake检测
生成式人工智能的快速发展使得能够创建高度逼真的假面部图像,对个人 ... 构成了严重威胁。
- · ai
[Paper] SketchPlay:使用手势驱动草图绘制直观创建物理真实感 VR 内容
在 VR 中创建物理上逼真的内容通常需要复杂的建模工具或预定义的 3D 模型、纹理和动画,这会带来显著的 b……
- · ai
[论文] LongFly:长时程 UAV Vision-and-Language Navigation 与 Spatiotemporal Context Integration
无人机(UAV)是灾后搜救的关键工具,面临信息密度高、视角快速变化等挑战……