[Paper] Mobile-O：移动设备上的统一多模态理解与生成

发布: 3天前 (2026年2月24日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

请提供您希望翻译的具体文本内容（例如摘要、正文等），我将按照要求保留源链接并将其余部分翻译成简体中文。

Overview

Mobile‑O 是一个轻量级的视觉‑语言‑扩散模型，将 视觉理解和图像生成 都带到智能手机级别的设备上。通过重新设计跨模态条件管线，作者实现了实时性能（在 iPhone 上约 3 秒生成一张 512×512 的图像），同时在标准基准上匹配或超越了重量级学术基线。

关键贡献

Mobile Conditioning Projector (MCP) – 一种新颖的跨模态融合块，使用深度可分离卷积和逐层对齐，将视觉‑语言上下文注入扩散生成器，且 FLOPs 极低。
紧凑统一架构 – 整个模型能够舒适地运行在移动硬件上（≈30 M 参数），且无需任何服务器端支持。
四元组后训练方案 – 对 (prompt, image, question, answer) 四元组进行一次微调，同时提升生成质量和视觉问答（VQA）性能。
数据高效训练 – 系统仅在几百万图文对上进行训练（相较于典型基础模型的数千万），仍能达到竞争性分数。
开源生态系统 – 代码、预训练权重、移动演示应用以及精心策划的多模态数据集均已发布，以便复现和社区扩展。

方法论

Backbone encoder – 一种适用于移动端的视觉 Transformer（例如 ViT‑Tiny），从输入图像中提取空间特征图。
Text encoder – 一个轻量级 Transformer（约 6 M 参数）处理提示或问题，生成一系列 token 嵌入。
Mobile Conditioning Projector (MCP)
- 使用 层级余弦相似度 将每个视觉 token 与对应的文本 token 对齐，创建共享表示。
- 采用 深度可分离 3×3 卷积 融合对齐后的特征，与完整卷积相比显著降低乘加运算量。
- 输出经条件化的潜在特征，直接送入扩散解码器。
Diffusion generator – 一个 UNet 风格的去噪网络（已缩减至移动端规模），接收 MCP 条件化的潜在特征，并迭代地将噪声张量细化为最终图像。
Quadruplet fine‑tuning – 模型接受四元组输入：
- 生成提示 → 图像合成损失（L₂ + 感知损失）。
- 图像 → VQA 损失（问题 → 答案），使用相同的编码器‑解码器流水线。
该联合目标迫使共享参数同时服务于两项任务，省去额外的任务头。

所有操作均使用 Apple 的 Core ML 与 TensorFlow Lite 内核实现，确保充分利用设备的 Neural Engine 与 GPU。

结果与发现

指标	Mobile‑O	Show‑O	JanusFlow
GenEval（图像生成）	74 %	69 %	63 %
平均 VQA 准确率（7 个基准）	+15.3 % over Show‑O, +5.1 % over JanusFlow
推理时间（512×512）	~3 s on iPhone 14 Pro	18 s (≈6× slower)	33 s (≈11× slower)

尽管使用 ≈10× 更少的参数 和 ≈5× 更少的训练数据，Mobile‑O 仍能匹配或超越更大模型的生成质量。
MCP 贡献了大部分加速：去除它会导致 4.2× 的速度下降，但质量损失几乎可以忽略，验证了其以效率为先的设计。
四元组微调将 VQA 分数提升约 ~7 %，且不影响生成保真度，展示了成功的多任务共享。

实际影响

领域	Mobile‑O 的帮助方式
本地 AI 应用（照片编辑器、AR 滤镜）	实时文本到图像合成和即时视觉问答，无需云调用的延迟或隐私顾虑。
边缘机器人 / 无人机	在板载同时解释视觉线索的同时生成上下文覆盖（例如，“显示该区域的地图”）。
移动游戏	根据玩家提示动态创建资产或情节板，使游戏保持轻量且离线优先。
企业现场工具	工作人员可以询问“哪个部件损坏了？”并立即收到带注释的图像，提升检查工作流。
研究原型	开发者可以在本地迭代多模态提示，显著缩短相较于服务器管线的反馈循环。

由于模型完全在设备上运行，它规避了数据隐私法规（GDPR、HIPAA），并降低了带宽成本——这对远程或低连接环境的应用至关重要。

局限性与未来工作

Resolution ceiling – 当前流水线针对 512×512 图像进行调优；若要扩展到 1024×1024，则需要更多内存或采用多阶段上采样策略。
Domain coverage – 训练数据仅限于几百万通用图文对；对于细分领域（医学影像、卫星影像）可能需要额外的微调。
Hardware dependence – 性能数据基于最新的 Apple silicon；较旧的 Android 设备可能出现推理速度变慢，表明需要更广泛的硬件基准测试。
Prompt complexity – 非常长或高度组合的提示可能降低生成的保真度，说明在更丰富的语言建模或层次化条件方面仍有提升空间。

Future directions include integrating adapter‑style modules for domain‑specific extensions, exploring progressive diffusion to push resolution limits, and extending the MCP concept to audio‑visual multimodal tasks.

Mobile‑O 表明，统一的多模态智能不再是云规模服务器的专属领域。通过将高效的跨模态条件与紧凑的扩散骨干相结合，它为新一类设备端 AI 体验打开了大门。

作者

Abdelrahman Shaker
Ahmed Heakl
Jaseel Muhammad
Ritesh Thawkar
Omkar Thawakar
Senmao Li
Hisham Cholakkal
Ian Reid
Eric P. Xing
Salman Khan
Fahad Shahbaz Khan

论文信息

arXiv ID: 2602.20161v1
分类: cs.CV
发布时间: 2026年2月23日
PDF: 下载 PDF

[Paper] Mobile-O：移动设备上的统一多模态理解与生成

Overview

关键贡献

方法论

结果与发现

实际影响

局限性与未来工作

作者

论文信息

相关文章

[论文] Neu-PiG：神经预条件网格用于长序列的快速动态表面重建

[论文] WHOLE：基于世界坐标的手-对象提升来自第一人称视频

[Paper] Solaris: 在 Minecraft 中构建多人视频世界模型

[Paper] 现成的 Image-to-Image 模型是击败图像保护方案的全部所需