[Paper] Mobile-O:移动设备上的统一多模态理解与生成

发布: (2026年2月24日 GMT+8 02:59)
8 分钟阅读
原文: arXiv

请提供您希望翻译的具体文本内容(例如摘要、正文等),我将按照要求保留源链接并将其余部分翻译成简体中文。

Overview

Mobile‑O 是一个轻量级的视觉‑语言‑扩散模型,将 视觉理解和图像生成 都带到智能手机级别的设备上。通过重新设计跨模态条件管线,作者实现了实时性能(在 iPhone 上约 3 秒生成一张 512×512 的图像),同时在标准基准上匹配或超越了重量级学术基线。

关键贡献

  • Mobile Conditioning Projector (MCP) – 一种新颖的跨模态融合块,使用深度可分离卷积和逐层对齐,将视觉‑语言上下文注入扩散生成器,且 FLOPs 极低。
  • 紧凑统一架构 – 整个模型能够舒适地运行在移动硬件上(≈30 M 参数),且无需任何服务器端支持。
  • 四元组后训练方案 – 对 (prompt, image, question, answer) 四元组进行一次微调,同时提升生成质量和视觉问答(VQA)性能。
  • 数据高效训练 – 系统仅在几百万图文对上进行训练(相较于典型基础模型的数千万),仍能达到竞争性分数。
  • 开源生态系统 – 代码、预训练权重、移动演示应用以及精心策划的多模态数据集均已发布,以便复现和社区扩展。

方法论

  1. Backbone encoder – 一种适用于移动端的视觉 Transformer(例如 ViT‑Tiny),从输入图像中提取空间特征图。

  2. Text encoder – 一个轻量级 Transformer(约 6 M 参数)处理提示或问题,生成一系列 token 嵌入。

  3. Mobile Conditioning Projector (MCP)

    • 使用 层级余弦相似度 将每个视觉 token 与对应的文本 token 对齐,创建共享表示。
    • 采用 深度可分离 3×3 卷积 融合对齐后的特征,与完整卷积相比显著降低乘加运算量。
    • 输出经条件化的潜在特征,直接送入扩散解码器。
  4. Diffusion generator – 一个 UNet 风格的去噪网络(已缩减至移动端规模),接收 MCP 条件化的潜在特征,并迭代地将噪声张量细化为最终图像。

  5. Quadruplet fine‑tuning – 模型接受四元组输入:

    • 生成提示 → 图像合成损失(L₂ + 感知损失)。
    • 图像 → VQA 损失(问题 → 答案),使用相同的编码器‑解码器流水线。

    该联合目标迫使共享参数同时服务于两项任务,省去额外的任务头。

所有操作均使用 Apple 的 Core MLTensorFlow Lite 内核实现,确保充分利用设备的 Neural Engine 与 GPU。

结果与发现

指标Mobile‑OShow‑OJanusFlow
GenEval(图像生成)74 %69 %63 %
平均 VQA 准确率(7 个基准)+15.3 % over Show‑O, +5.1 % over JanusFlow
推理时间(512×512)~3 s on iPhone 14 Pro18 s (≈6× slower)33 s (≈11× slower)
  • 尽管使用 ≈10× 更少的参数≈5× 更少的训练数据,Mobile‑O 仍能匹配或超越更大模型的生成质量。
  • MCP 贡献了大部分加速:去除它会导致 4.2× 的速度下降,但质量损失几乎可以忽略,验证了其以效率为先的设计。
  • 四元组微调将 VQA 分数提升约 ~7 %,且不影响生成保真度,展示了成功的多任务共享。

实际影响

领域Mobile‑O 的帮助方式
本地 AI 应用(照片编辑器、AR 滤镜)实时文本到图像合成和即时视觉问答,无需云调用的延迟或隐私顾虑。
边缘机器人 / 无人机在板载同时解释视觉线索的同时生成上下文覆盖(例如,“显示该区域的地图”)。
移动游戏根据玩家提示动态创建资产或情节板,使游戏保持轻量且离线优先。
企业现场工具工作人员可以询问“哪个部件损坏了?”并立即收到带注释的图像,提升检查工作流。
研究原型开发者可以在本地迭代多模态提示,显著缩短相较于服务器管线的反馈循环。

由于模型完全在设备上运行,它规避了数据隐私法规(GDPR、HIPAA),并降低了带宽成本——这对远程或低连接环境的应用至关重要。

局限性与未来工作

  • Resolution ceiling – 当前流水线针对 512×512 图像进行调优;若要扩展到 1024×1024,则需要更多内存或采用多阶段上采样策略。
  • Domain coverage – 训练数据仅限于几百万通用图文对;对于细分领域(医学影像、卫星影像)可能需要额外的微调。
  • Hardware dependence – 性能数据基于最新的 Apple silicon;较旧的 Android 设备可能出现推理速度变慢,表明需要更广泛的硬件基准测试。
  • Prompt complexity – 非常长或高度组合的提示可能降低生成的保真度,说明在更丰富的语言建模或层次化条件方面仍有提升空间。

Future directions include integrating adapter‑style modules for domain‑specific extensions, exploring progressive diffusion to push resolution limits, and extending the MCP concept to audio‑visual multimodal tasks.

Mobile‑O 表明,统一的多模态智能不再是云规模服务器的专属领域。通过将高效的跨模态条件与紧凑的扩散骨干相结合,它为新一类设备端 AI 体验打开了大门。

作者

  • Abdelrahman Shaker
  • Ahmed Heakl
  • Jaseel Muhammad
  • Ritesh Thawkar
  • Omkar Thawakar
  • Senmao Li
  • Hisham Cholakkal
  • Ian Reid
  • Eric P. Xing
  • Salman Khan
  • Fahad Shahbaz Khan

论文信息

  • arXiv ID: 2602.20161v1
  • 分类: cs.CV
  • 发布时间: 2026年2月23日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »