[Paper] NanoFLUX: 모바일 기기를 위한 대규모 텍스트-이미지 생성 모델의 증류 기반 압축

발행: (2026년 2월 7일 오전 02:05 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2602.06879v1

Overview

이 논문은 NanoFLUX를 소개한다. 이는 2.4 B‑파라미터의 소형 텍스트‑투‑이미지 생성 모델로, 최신 스마트폰에서 몇 초 만에 실행된다. 17 B‑파라미터 확산 모델(FLUX.1‑Schnell)을 증류하고 일련의 스마트한 압축 기법을 적용함으로써, 저자들은 최첨단 시각 합성 기술과 디바이스 내 배포 사이의 격차를 메운다.

주요 기여

  • 점진적 모델 압축은 확산 트랜스포머를 12 B에서 약 2 B 파라미터로 줄이면서 시각적 충실도를 유지합니다.
  • ResNet‑기반 토큰 다운샘플링, 초기 트랜스포머 블록이 저해상도 토큰 맵에서 작동하도록 하여 지연 시간을 줄이면서 최종 이미지 품질을 손상시키지 않습니다.
  • 텍스트‑인코더 증류는 디노이저 초기 레이어의 시각적 단서를 언어 표현에 주입하여 텍스트‑이미지 정렬을 향상시킵니다.
  • 실제 벤치마크: 일반 모바일 디바이스에서 512 × 512 이미지가 약 2.5 초에 생성되며, 이는 고해상도 확산 모델을 디바이스에서 구현한 최초 사례입니다.

방법론

  1. Teacher‑Student Distillation – 대형 FLUX.1‑Schnell 모델(“교사”)이 레퍼런스 이미지와 중간 디노이징 특징을 생성합니다. 더 작은 “학생” 네트워크는 최종 출력과 중간 동역학을 모두 모방하도록 학습되어, diffusion 과정의 표현력을 유지합니다.

  2. Transformer Pruning – 민감도 분석을 통해 중복된 어텐션 헤드와 피드‑포워드 차원을 식별하고 제거합니다. 이를 통해 트랜스포머의 파라미터 수를 12 B에서 약 2 B로 줄이면서 가장 정보량이 풍부한 경로는 유지합니다.

  3. ResNet Token Down‑Sampler – 첫 번째 몇 개의 트랜스포머 레이어 앞에서 경량 ResNet이 공간 토큰 해상도를 감소시킵니다(예: 64 × 64 → 32 × 32). 이후 레이어에서 토큰을 다시 업스케일하여, 대부분의 연산이 더 작은 표현에서 수행되도록 합니다.

  4. Cross‑Modal Text Encoder Distillation – 텍스트 인코더는 언어 데이터뿐만 아니라 초기 디노이저 레이어에서 추출된 시각적 특징을 예측하도록 학습됩니다. 이는 텍스트 임베딩을 시각 생성 파이프라인과 더 가깝게 정렬시켜 프롬프트 준수도를 향상시킵니다.

  5. Progressive Fine‑Tuning – 각 압축 단계 후에 모델을 원본 diffusion 훈련 세트에 미세 조정하여 손실된 품질을 회복합니다. 이를 통해 교사 모델에서 최종 학생 모델까지 부드러운 “압축 사다리”를 구현합니다.

결과 및 발견

  • 속도: 플래그십 Android 폰(Snapdragon 8 Gen 2)에서 단일 GPU 코어를 사용하여 512 × 512 이미지 생성이 ≈2.5 초 소요.
  • 품질: 인간 평가와 CLIP‑기반 유사도 점수는 17 B 교사 모델에 비해 ≈5 % 정도만 감소했으며, 대부분의 소비자 사용 사례에서는 거의 감지되지 않음.
  • 파라미터 효율성: 최종 모델은 ~2 GB(압축) 저장 공간을 차지하며 일반적인 모바일 메모리 예산 내에 여유롭게 들어감.
  • 소거 실험: 토큰 다운‑샘플러를 제거하면 지연 시간이 약 40 % 증가하지만 품질 향상은 미미함; 텍스트‑인코더 증류를 생략하면 프롬프트 충실도가 눈에 띄게 감소하여 (CLIP‑점수가 ≈12 % 낮아짐).

Practical Implications

  • On‑Device Creative Apps – 개발자는 클라우드 API에 의존하지 않고 고해상도 텍스트‑투‑이미지 생성 기능을 사진 편집기, AR 필터, 소셜 미디어 스티커 등에 직접 삽입할 수 있어 지연 시간을 줄이고 사용자 프라이버시를 보호합니다.
  • Edge‑AI Services – 기업은 엣지 디바이스에 맞춤형 콘텐츠 생성(예: 마케팅 시각 자료, 제품 목업)을 배포함으로써 대역폭 비용을 절감하고 오프라인 작동을 가능하게 합니다.
  • Rapid Prototyping – 압축 파이프라인을 다른 확산 모델(예: 비디오 또는 3‑D 생성)에도 적용할 수 있어, 더 많은 생성 AI 기능을 엣지로 가져오는 로드맵을 제공합니다.
  • Energy Efficiency – 로컬에서 실행하면 서버로 데이터를 전송하는 에너지 오버헤드를 피할 수 있어 배터리 제약이 있는 디바이스에 특히 유용합니다.

제한 사항 및 향후 작업

  • 하드웨어 의존성 – 보고된 2.5 초 지연 시간은 고성능 모바일 GPU를 기준으로 한 것이며, 하위 등급 장치에서는 성능이 더 느려집니다.
  • 해상도 한계 – 512 × 512는 인상적이지만, 1024 × 1024로 확장하려면 여전히 클라우드 자원이 필요합니다.
  • 일반화 – 모델은 FLUX.1‑Schnell과 동일한 데이터 분포에서 증류되었으므로, 도메인 외 프롬프트에 대한 성능이 저하될 수 있습니다.
  • 향후 방향 – 저자들은 양자화 인식 학습, 혼합 정밀도 추론, 그리고 토큰 다운샘플링 개념을 멀티모달 디퓨전 파이프라인(예: 텍스트‑투‑비디오)으로 확장하는 것을 탐구할 것을 제안합니다.

저자

  • Ruchika Chavhan
  • Malcolm Chadwick
  • Alberto Gil Couto Pimentel Ramos
  • Luca Morreale
  • Mehdi Noroozi
  • Abhinav Mehrotra

논문 정보

  • arXiv ID: 2602.06879v1
  • 분류: cs.CV, cs.AI
  • 출판일: 2026년 2월 6일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »