[Paper] NanoFLUX: 모바일 기기를 위한 대규모 텍스트-이미지 생성 모델의 증류 기반 압축

발행: 3일 전 (2026년 2월 7일 오전 02:05 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2602.06879v1

Overview

이 논문은 NanoFLUX를 소개한다. 이는 2.4 B‑파라미터의 소형 텍스트‑투‑이미지 생성 모델로, 최신 스마트폰에서 몇 초 만에 실행된다. 17 B‑파라미터 확산 모델(FLUX.1‑Schnell)을 증류하고 일련의 스마트한 압축 기법을 적용함으로써, 저자들은 최첨단 시각 합성 기술과 디바이스 내 배포 사이의 격차를 메운다.

주요 기여

점진적 모델 압축은 확산 트랜스포머를 12 B에서 약 2 B 파라미터로 줄이면서 시각적 충실도를 유지합니다.
ResNet‑기반 토큰 다운샘플링, 초기 트랜스포머 블록이 저해상도 토큰 맵에서 작동하도록 하여 지연 시간을 줄이면서 최종 이미지 품질을 손상시키지 않습니다.
텍스트‑인코더 증류는 디노이저 초기 레이어의 시각적 단서를 언어 표현에 주입하여 텍스트‑이미지 정렬을 향상시킵니다.
실제 벤치마크: 일반 모바일 디바이스에서 512 × 512 이미지가 약 2.5 초에 생성되며, 이는 고해상도 확산 모델을 디바이스에서 구현한 최초 사례입니다.

방법론

Teacher‑Student Distillation – 대형 FLUX.1‑Schnell 모델(“교사”)이 레퍼런스 이미지와 중간 디노이징 특징을 생성합니다. 더 작은 “학생” 네트워크는 최종 출력과 중간 동역학을 모두 모방하도록 학습되어, diffusion 과정의 표현력을 유지합니다.
Transformer Pruning – 민감도 분석을 통해 중복된 어텐션 헤드와 피드‑포워드 차원을 식별하고 제거합니다. 이를 통해 트랜스포머의 파라미터 수를 12 B에서 약 2 B로 줄이면서 가장 정보량이 풍부한 경로는 유지합니다.
ResNet Token Down‑Sampler – 첫 번째 몇 개의 트랜스포머 레이어 앞에서 경량 ResNet이 공간 토큰 해상도를 감소시킵니다(예: 64 × 64 → 32 × 32). 이후 레이어에서 토큰을 다시 업스케일하여, 대부분의 연산이 더 작은 표현에서 수행되도록 합니다.
Cross‑Modal Text Encoder Distillation – 텍스트 인코더는 언어 데이터뿐만 아니라 초기 디노이저 레이어에서 추출된 시각적 특징을 예측하도록 학습됩니다. 이는 텍스트 임베딩을 시각 생성 파이프라인과 더 가깝게 정렬시켜 프롬프트 준수도를 향상시킵니다.
Progressive Fine‑Tuning – 각 압축 단계 후에 모델을 원본 diffusion 훈련 세트에 미세 조정하여 손실된 품질을 회복합니다. 이를 통해 교사 모델에서 최종 학생 모델까지 부드러운 “압축 사다리”를 구현합니다.

결과 및 발견

속도: 플래그십 Android 폰(Snapdragon 8 Gen 2)에서 단일 GPU 코어를 사용하여 512 × 512 이미지 생성이 ≈2.5 초 소요.
품질: 인간 평가와 CLIP‑기반 유사도 점수는 17 B 교사 모델에 비해 ≈5 % 정도만 감소했으며, 대부분의 소비자 사용 사례에서는 거의 감지되지 않음.
파라미터 효율성: 최종 모델은 ~2 GB(압축) 저장 공간을 차지하며 일반적인 모바일 메모리 예산 내에 여유롭게 들어감.
소거 실험: 토큰 다운‑샘플러를 제거하면 지연 시간이 약 40 % 증가하지만 품질 향상은 미미함; 텍스트‑인코더 증류를 생략하면 프롬프트 충실도가 눈에 띄게 감소하여 (CLIP‑점수가 ≈12 % 낮아짐).

Practical Implications

On‑Device Creative Apps – 개발자는 클라우드 API에 의존하지 않고 고해상도 텍스트‑투‑이미지 생성 기능을 사진 편집기, AR 필터, 소셜 미디어 스티커 등에 직접 삽입할 수 있어 지연 시간을 줄이고 사용자 프라이버시를 보호합니다.
Edge‑AI Services – 기업은 엣지 디바이스에 맞춤형 콘텐츠 생성(예: 마케팅 시각 자료, 제품 목업)을 배포함으로써 대역폭 비용을 절감하고 오프라인 작동을 가능하게 합니다.
Rapid Prototyping – 압축 파이프라인을 다른 확산 모델(예: 비디오 또는 3‑D 생성)에도 적용할 수 있어, 더 많은 생성 AI 기능을 엣지로 가져오는 로드맵을 제공합니다.
Energy Efficiency – 로컬에서 실행하면 서버로 데이터를 전송하는 에너지 오버헤드를 피할 수 있어 배터리 제약이 있는 디바이스에 특히 유용합니다.

제한 사항 및 향후 작업

하드웨어 의존성 – 보고된 2.5 초 지연 시간은 고성능 모바일 GPU를 기준으로 한 것이며, 하위 등급 장치에서는 성능이 더 느려집니다.
해상도 한계 – 512 × 512는 인상적이지만, 1024 × 1024로 확장하려면 여전히 클라우드 자원이 필요합니다.
일반화 – 모델은 FLUX.1‑Schnell과 동일한 데이터 분포에서 증류되었으므로, 도메인 외 프롬프트에 대한 성능이 저하될 수 있습니다.
향후 방향 – 저자들은 양자화 인식 학습, 혼합 정밀도 추론, 그리고 토큰 다운샘플링 개념을 멀티모달 디퓨전 파이프라인(예: 텍스트‑투‑비디오)으로 확장하는 것을 탐구할 것을 제안합니다.

저자

Ruchika Chavhan
Malcolm Chadwick
Alberto Gil Couto Pimentel Ramos
Luca Morreale
Mehdi Noroozi
Abhinav Mehrotra

논문 정보

arXiv ID: 2602.06879v1
분류: cs.CV, cs.AI
출판일: 2026년 2월 6일
PDF: PDF 다운로드

[Paper] NanoFLUX: 모바일 기기를 위한 대규모 텍스트-이미지 생성 모델의 증류 기반 압축

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 비디오 캡슐 내시경 데이터의 신뢰할 수 있는 라벨 오류 탐지

[Paper] PANC: Prior-Aware Normalized Cut for 객체 분할

[Paper] Vision Transformer 미세조정은 비부드러운 구성 요소에서 이점을 얻는다

[Paper] MedMO: 의료 이미지용 멀티모달 대형 언어 모델의 그라운딩 및 이해