[Paper] LFM2 기술 보고서

발행: 2개월 전 (2025년 11월 29일 오전 02:56 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2511.23404v1

개요

LFM2 기술 보고서는 Liquid Foundation Models (LFM2)—스마트폰, 노트북, 임베디드 CPU와 같은 엣지 디바이스에서 빠르고 저메모리 추론을 위해 설계된 새로운 대형 언어 모델 패밀리—를 소개합니다. 하드웨어‑인‑루프 아키텍처 탐색과 새로운 학습 기법을 결합함으로써, 저자들은 동일 규모의 기존 모델보다 2배 빠른 추론 속도를 달성하면서도 최고 수준의 벤치마크 점수를 유지하는 모델을 제시합니다.

주요 기여

하이브리드 백본 설계: 게이트된 단거리 컨볼루션과 소수의 그룹드‑쿼리 어텐션 블록을 결합해 CPU에서 지연 시간을 크게 감소시킵니다.
하드웨어‑인‑루프 NAS: 아키텍처 탐색이 FLOPs나 파라미터 수가 아니라 엣지 지연 시간과 메모리 제한을 직접 최적화합니다.
확장 가능한 모델 패밀리: 350 M – 2.6 B 파라미터를 갖는 6가지 밀집형 변형과, 토큰당 1.5 B 파라미터만 활성화되는 8.3 B 혼합‑전문가(MoE) 모델을 제공합니다. 모두 32 K 컨텍스트 윈도우를 지원합니다.
학습 파이프라인 혁신:
- 교사와 학생 사이의 “지원 불일치”를 방지하는 온도 조절형, 분리형 Top‑K 지식 증류.
- 난이도가 증가하는 순서대로 데이터를 공급하는 커리큘럼 학습.
- 3단계 사후 학습 레시피(지도 미세조정 → 길이 정규화 선호 최적화 → 모델 병합).
멀티모달 확장:
- LFM2‑VL(비전‑언어) – 정확도‑지연 트레이드오프를 조절할 수 있는 토큰 효율적인 시각 전처리.
- LFM2‑Audio(음성‑음성) – 실시간 상호작용을 가능하게 하는 별도 오디오 인코더/디코더 파이프라인.
- LFM2‑ColBERT(검색) – 저지연 다국어 쿼리/문서 인코딩 제공.
오픈소스 배포 번들: ExecuTorch, llama.cpp, vLLM용 즉시 실행 패키지를 제공해 엣지 배포를 손쉽게 합니다.

방법론

실제 제약 조건을 반영한 아키텍처 탐색
- 저자들은 목표 CPU에서 실제 추론 시간과 메모리 사용량을 측정하는 신경‑아키텍처‑탐색 루프를 수행합니다.
- 탐색 공간은 단거리 컨볼루션(빠르고 지역 패턴 포착)과 그룹드‑쿼리 어텐션(경량 글로벌 컨텍스트)을 혼합합니다.
학습 레짐
- 온도 조절형 Top‑K 증류: 학생 모델은 교사의 Top‑K 로짓을 학습하지만, 온도는 점진적으로 감소시켜 학습 신호를 안정적으로 유지합니다.
- 커리큘럼 데이터 정렬: 학습 데이터는 난이도(예: 토큰 엔트로피)별로 정렬되어 모델이 쉬운 패턴을 먼저 마스터하고 이후 어려운 패턴을 학습합니다.
- 사후 학습 3단계 레시피:
  - 지도 미세조정 – 작업‑특화 데이터에 대해.
  - 길이 정규화 선호 최적화 – 32 K 컨텍스트를 고려한 경량 RLHF‑스타일 단계.
  - 모델 병합 – 여러 미세조정 체크포인트를 결합해 견고성을 높임.
멀티모달 적용
- 시각 토큰은 지연 예산에 맞게 조절 가능한 경량 CNN‑기반 토크나이저로 생성됩니다.
- 오디오 파이프라인은 인코딩/디코딩을 분리해 서브‑초 지연으로 스트리밍 추론을 가능하게 합니다.
평가
- 10–12 조 토큰(웹 텍스트, 코드, 멀티모달 코퍼스)으로 학습.
- 표준 언어(IFEval, GSM8K), 비전‑언어(VQAv2, COCO), 음성(LibriSpeech, VCTK), 검색(MS‑MARCO, 다국어 BEIR) 벤치마크에서 평가.

결과 및 발견

모델	파라미터	IFEval	GSM8K	VQAv2 (VL)	LibriSpeech (Audio)	Retrieval (ColBERT)
LFM2‑350M	0.35 B	71.2%	74.8%	68.5%	9.2 % WER	71.3 % MRR
LFM2‑2.6B	2.6 B	79.56%	82.41%	78.1%	6.8 % WER	78.9 % MRR
LFM2‑MoE (8.3 B/1.5 B)	8.3 B (1.5 B 활성)	81.3%	84.7%	80.4%	5.9 % WER	81.2 % MRR

지연 시간: 일반적인 노트북 CPU(Intel i7‑12700H)에서 LFM2‑2.6B의 프리‑필 및 디코드가 ~2배 빠르게 동작하며, 동일한 밀집 2.6 B LLaMA‑2 기준보다 약 30 % 적은 RAM을 사용합니다.
멀티모달 트레이드오프: LFM2‑VL은 시각 토큰 해상도를 50 % 낮춰도 정확도 손실이 2‑3 %에 불과해, 폰급 SoC에서 100 ms 미만 이미지‑조건 생성이 가능합니다.
실시간 음성: LFM2‑Audio는 ≤ 150 ms 엔드‑투‑엔드 지연을 달성해, 3배 규모의 모델에 버금가는 성능을 제공합니다.

전체적으로, 하드웨어 제약을 고려한 공동 설계가 엣지 환경에서도 최첨단 성능을 유지하는 기반 모델을 가능하게 함을 보여줍니다.

실용적 함의

엣지 AI 제품: 개발자는 2.6 B LFM2 모델을 모바일 앱, 웨어러블, IoT 게이트웨이에 직접 탑재해 온‑디바이스 채팅, 요약, 코드 지원 등을 구현할 수 있어 클라우드 API 의존도를 없애고 지연·프라이버시 문제를 감소시킵니다.
실시간 멀티모달 어시스턴트: LFM2‑VL의 조절 가능한 시각 토큰 파이프라인은 헤드셋에서 시각 질의에 즉시 응답하는 AR 어시스턴트 구축을 가능하게 합니다.
음성‑음성 봇: LFM2‑Audio의 스트리밍 구조는 단일 CPU 코어만으로도 저지연 음성 비서나 번역 디바이스를 구현할 수 있게 합니다.
검색·검색 서비스: LFM2‑ColBERT는 GPU 없이도 지연이 중요한 검색 백엔드나 개인 지식베이스 도구에 배포 가능한 빠른 다국어 인코더를 제공합니다.
오픈소스 생태계: 제공되는 ExecuTorch, llama.cpp, vLLM 패키지는 기존 추론 스택에 모델을 바로 삽입할 수 있게 해 프로토타이핑과 프로덕션 전환을 가속화합니다.

제한점 및 향후 연구

CPU 전용 확장 한계: MoE 모델은 활성 파라미터를 줄이지만 라우팅 오버헤드가 동일 활성 크기의 밀집 모델보다 약간 높은 지연을 초래합니다.
도메인‑특화 미세조정: 의료 용어와 같은 극히 제한된 도메인에서는 추가 지도 데이터가 여전히 필요하며, 현재 커리큘럼은 이러한 니치를 명시적으로 목표로 하지 않습니다.
하드웨어 다양성: NAS는 제한된 x86 CPU 집합에서만 수행되었으며, ARM SoC, GPU, 신흥 NPU 등으로 확장하면 더 나은 트레이드오프를 발견할 수 있습니다.
안전·정렬: 선호 최적화는 길이 정규화 보상에 초점을 맞추고 있어, 안전성·사실성 등 광범위한 정렬 문제는 아직 남아 있습니다.

향후 연구는 동적 희소성(실행 시 어텐션 패턴을 조정), 교차‑모달 커리큘럼 학습, 그리고 자동 배포 파이프라인을 통해 개발자의 정확한 하드웨어 예산에 맞는 모델 패밀리를 제공하는 방향으로 진행될 예정입니다.

저자

Alexander Amini
Anna Banaszak
Harold Benoit
Arthur Böök
Tarek Dakhran
Song Duong
Alfred Eng
Fernando Fernandes
Marc Härkönen
Anne Harrington
Ramin Hasani
Saniya Karwa
Yuri Khrustalev
Maxime Labonne
Mathias Lechner
Valentine Lechner
Simon Lee
Zetian Li
Noel Loo
Jacob Marks
Edoardo Mosca
Samuel J. Paech
Paul Pak
Rom N. Parnichkun
Alex Quach
Ryan Rogers
Daniela Rus
Nayan Saxena
Bettina Schlager
Tim Seyde
Jimmy T. H. Smith
Aditya Tadimeti
Neehal Tumma

논문 정보

arXiv ID: 2511.23404v1
분류: cs.LG, cs.AI
발표일: 2025년 11월 28일
PDF: Download PDF

[Paper] LFM2 기술 보고서

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한점 및 향후 연구

저자

논문 정보

관련 글

[Paper] 행동으로 사고하기: Multi‑turn Interaction을 통한 LLM의 Efficient World Model Reasoning 구축

[Paper] ThetaEvolve: 테스트 시 학습 on Open Problems

[Paper] 진보의 대가: Algorithmic Efficiency와 AI Inference 비용 감소

[Paper] Physics-Informed Neural Networks를 이용한 열물성 특성 추출