[Paper] Mobile-O: 모바일 기기에서의 통합 멀티모달 이해 및 생성

발행: 3일 전 (2026년 2월 24일 오전 03:59 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.20161v1

개요

Mobile‑O는 스마트폰‑급 장치에 시각적 이해와 이미지 생성을 모두 제공하는 경량 비전‑언어‑디퓨전 모델입니다. 교차‑모달 조건 파이프라인을 재설계함으로써, 저자들은 iPhone에서 512×512 이미지당 약 3 초의 실시간 성능을 달성하면서 표준 벤치마크에서 무거운 학술 기반 모델들을 능가하거나 동등한 성능을 보였습니다.

주요 기여

Mobile Conditioning Projector (MCP) – 깊이별 분리 컨볼루션과 레이어별 정렬을 사용하여 비전‑언어 컨텍스트를 최소 FLOP으로 확산 생성기에 주입하는 새로운 크로스‑모달 융합 블록.
컴팩트한 통합 아키텍처 – 전체 모델이 모바일 하드웨어에 여유롭게 들어가며 (≈30 M 파라미터) 서버‑사이드 지원 없이 실행됩니다.
사중(post‑training) 스킴 – (프롬프트, 이미지, 질문, 답변) 튜플에 대한 단일 파인‑튜닝으로 생성 품질과 시각‑질문‑답변(VQA) 성능을 동시에 향상시킵니다.
데이터 효율적인 학습 – 수백만 개의 이미지‑텍스트 쌍만으로 학습되며(전형적인 기반 모델은 수천만 개) 경쟁력 있는 점수를 달성합니다.
오픈‑소스 생태계 – 코드, 사전학습 가중치, 모바일 데모 앱, 그리고 선별된 멀티모달 데이터셋을 재현성 및 커뮤니티 확장을 위해 공개합니다.

Methodology

Backbone encoder – 모바일 친화적인 비전 트랜스포머(예: ViT‑Tiny)가 입력 이미지에서 공간 특징 맵을 추출합니다.
Text encoder – 경량 트랜스포머(≈6 M 파라미터)가 프롬프트 또는 질문을 처리하여 토큰 임베딩 시퀀스를 생성합니다.
Mobile Conditioning Projector (MCP)
- layer‑wise cosine similarity를 사용해 각 비전 토큰을 해당 텍스트 토큰과 정렬하여 공유 표현을 만듭니다.
- 정렬된 특징을 융합하기 위해 depthwise‑separable 3×3 convolutions을 적용하여 전체 컨볼루션에 비해 곱셈‑덧셈 연산을 크게 줄입니다.
- 조건화된 잠재 표현을 출력하여 바로 diffusion 디코더에 전달합니다.
Diffusion generator – 모바일 크기로 축소된 UNet‑style 디노이징 네트워크가 MCP‑조건화된 잠재 변수를 받아 반복적으로 노이즈 텐서를 최종 이미지로 정제합니다.
Quadruplet fine‑tuning – 모델은 네 요소 튜플에 노출됩니다:
- Generation prompt → 이미지 합성 손실 (L₂ + perceptual).
- Image → VQA 손실 (question → answer) 을 동일한 인코더‑디코더 파이프라인으로 사용.
이 공동 목표는 공유 파라미터가 두 작업을 모두 수행하도록 강제하여 별도의 헤드가 필요 없게 합니다.

모든 연산은 Apple’s Core ML 및 TensorFlow Lite 커널로 구현되어 기기의 Neural Engine 및 GPU를 최적화하여 활용합니다.

결과 및 발견

측정항목	Mobile‑O	Show‑O	JanusFlow
GenEval (이미지 생성)	74 %	69 %	63 %
평균 VQA 정확도 (7개 벤치마크)	+15.3 % over Show‑O, +5.1 % over JanusFlow
추론 시간 (512×512)	~3 s on iPhone 14 Pro	18 s (≈6× slower)	33 s (≈11× slower)

비록 ≈10배 적은 파라미터와 ≈5배 적은 학습 데이터를 사용했음에도, Mobile‑O는 더 큰 모델들의 생성 품질에 맞먹거나 능가합니다.
MCP는 속도 향상의 대부분을 차지합니다: 이를 제거하면 품질 손실은 거의 없지만 4.2배 느려져, 효율성 우선 설계를 확인합니다.
쿼드러플트 파인튜닝은 생성 충실도를 해치지 않으면서 VQA 점수를 ~7 % 향상시켜, 다중 작업 공유의 성공을 입증합니다.

실용적 함의

분야	Mobile‑O가 돕는 방법
온‑디바이스 AI 앱 (사진 편집기, AR 필터)	지연이나 클라우드 호출에 대한 프라이버시 우려 없이 실시간 텍스트‑투‑이미지 합성 및 즉각적인 시각 Q&A 제공.
엣지 로보틱스 / 드론	현장 오버레이(예: “해당 지역 지도 표시”)를 생성하면서 동시에 온보드에서 시각적 신호를 해석.
모바일 게임	플레이어 프롬프트에 따라 동적으로 자산이나 스토리보드를 생성하여 게임을 가볍고 오프라인 우선으로 유지.
기업 현장 도구	작업자는 “어떤 부품이 손상됐나요?”라고 물어 즉시 주석이 달린 이미지를 받아 검사 작업 흐름을 향상.
연구 프로토타이핑	개발자는 로컬에서 멀티모달 프롬프트를 반복할 수 있어 서버 기반 파이프라인에 비해 피드백 루프를 크게 단축.

모델이 완전히 디바이스에서 실행되므로 데이터 프라이버시 규정(GDPR, HIPAA)을 회피하고 대역폭 비용을 줄입니다—원격 또는 저연결 환경에서의 애플리케이션에 필수적입니다.

제한 사항 및 향후 작업

해상도 한계 – 현재 파이프라인은 512×512 이미지에 맞춰 튜닝되어 있으며, 1024×1024로 확장하려면 메모리를 더 많이 사용하거나 다단계 업샘플링 전략이 필요합니다.
도메인 커버리지 – 학습 데이터는 수백만 개의 일반 목적 이미지‑텍스트 쌍에 제한되어 있어, 의료 영상이나 위성 이미지와 같은 특수 도메인은 추가 파인튜닝이 필요할 수 있습니다.
하드웨어 의존성 – 성능 수치는 최신 Apple 실리콘을 기준으로 보고되었으며, 구형 Android 기기에서는 추론 속도가 느려질 수 있어 보다 폭넓은 하드웨어 벤치마크가 필요합니다.
프롬프트 복잡성 – 매우 길거나 복합적인 프롬프트는 생성 품질을 떨어뜨릴 수 있어, 보다 풍부한 언어 모델링이나 계층적 조건화가 필요합니다.

향후 방향으로는 도메인 특화 확장을 위한 어댑터 스타일 모듈 통합, 해상도 한계를 넓히기 위한 프로그레시브 디퓨전 탐색, 그리고 MCP 개념을 오디오‑비주얼 멀티모달 작업으로 확장하는 것이 포함됩니다.

Mobile‑O는 통합 멀티모달 인텔리전스가 이제 클라우드 규모 서버만의 전유물이 아님을 보여줍니다. 효율적인 교차 모달 조건화와 컴팩트한 디퓨전 백본을 결합함으로써 새로운 종류의 온‑디바이스 AI 경험의 문을 열었습니다.

저자

Abdelrahman Shaker
Ahmed Heakl
Jaseel Muhammad
Ritesh Thawkar
Omkar Thawakar
Senmao Li
Hisham Cholakkal
Ian Reid
Eric P. Xing
Salman Khan
Fahad Shahbaz Khan

논문 정보

arXiv ID: 2602.20161v1
분류: cs.CV
출판일: 2026년 2월 23일
PDF: PDF 다운로드

[Paper] Mobile-O: 모바일 기기에서의 통합 멀티모달 이해 및 생성

개요

주요 기여

Methodology

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Neu-PiG: 긴 시퀀스에서 빠른 동적 표면 재구성을 위한 Neural Preconditioned Grids

[Paper] WHOLE: 월드-그라운디드 Hand-Object Lifted from Egocentric Videos

[Paper] Solaris: 마인크래프트에서 멀티플레이어 비디오 월드 모델 구축

[Paper] 오프‑더‑쉘프 Image-to-Image 모델만 있으면 이미지 보호 스킴을 물리칠 수 있다