[논문] 모비우스: 0.2억 파라미터 경량 이미지 인페이팅 프레임워크, 10B급 성능

발행: 1일 전 (2026년 6월 18일 AM 12:35 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.19195v1

개요

10조 수준의 산업 기반 모델들은 이미지 인페인팅 경계를 확장했지만, 그 막대한 계산 비용은 실제 배포를 심각하게 방해합니다. 특히 최적화된 작업별 전문가를 구축하는 것은 매력적인 해결책이지만, 극단적인 구조 압축은 필연적으로 심각한 표현 병목을 초래합니다. 이에 대응하여 우리는 효율적이고 가벼운 인페인팅 프레임워크인 Moebius를 제안합니다. 우리는 Local-$λ$ Mix Interaction($LλMI$) 블록을 도입하여 확산 기반을 체계적으로 재구성합니다. Local-$λ$ 모듈과 Interactive-$λ$ 모듈을 포함하고 있으며, 공간적 맥락과 전역 의미론적 선례를 고정 크기 선형 행렬로 효율적으로 요약하면서 복잡한 잠재적 상호작용을 보존하고 파라미터를 급격히 감소시킵니다. 또한, 이 altamente 압축된 아키텍처의 전체 표현 능력을 발휘하기 위해, 우리는 적응형 다중 그라뉴리티 디스틸레이션 전략과 시너지적으로 결합합니다. 엄격히 잠재 공간 내에서만 작동하여 비용이 많이 드는 픽셀 공간 디코딩을 피하고, 다중 기울기 기반 손실을 동적으로 균형 맞추어 고품질 정렬을 달성합니다. 자연 및 초상화 벤치마크에 대한 광범위한 실험은 이 최적의 시너지가 Moebius가 10조 수준의 산업 일반 모델인 FLUX.1-Fill-Dev의 생성 품질을 능가하거나 rival(경쟁)할 수 있음을 보여줍니다. 놀랍게도 Moebius는 파라미터의 2% 미만(0.22B 대 11.9B)을 사용하면서 총 추론 시간에서 $>15\×$ 가속화를 제공하고, 고품질 인페인팅에 대한 효율성 기준을 새롭게 설정합니다. 프로젝트 페이지: https://hustvl.github.io/Moebius.

주요 기여

이 논문은 다음과 같은 분야의 연구를 제시합니다: - cs.CV

방법론

자세한 내용은 원문을 참고하십시오.

실용적 의미

본 연구는 cs.CV 분야의 발전을 기여합니다.

저자

Kangsheng Duan
Ziyang Xu
Wenyu Liu
Xiaohu Ruan
Xiaoxin Chen
Xinggang Wang

논문 정보

arXiv ID: 2606.19195v1
카테고리: cs.CV
발행일: 2026년 6월 17일
PDF: PDF 다운로드

[논문] 모비우스: 0.2억 파라미터 경량 이미지 인페이팅 프레임워크, 10B급 성능

개요

주요 기여

방법론

실용적 의미

저자

논문 정보

관련 글

네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

[논문] 현재 관측을 넘어서: 제어 가능한 비마르코 게임에서의 다중모달 대형 언어 모델 평가

‘Do as I Do’ 논문: 일상 영상의 민첩 조작 데이터

[논문] 참조 기반 다중 스피커 오디오 씬 생성