[论文] LFM2 技术报告
发布: (2025年11月29日 GMT+8 01:56)
8 min read
原文: arXiv
Source: arXiv - 2511.23404v1
概览
LFM2 技术报告推出了 Liquid Foundation Models (LFM2)——一类专为智能手机、笔记本电脑和嵌入式 CPU 等边缘设备实现快速、低内存推理的大型语言模型。通过将硬件‑in‑the‑loop 架构搜索与新颖的训练技巧相结合,作者实现的模型在保持顶级基准分数的同时,推理速度比同等规模的替代模型快 2 倍。
关键贡献
- 混合骨干网络设计:将门控短程卷积与少量分组查询注意力块相结合,显著降低 CPU 延迟。
- 硬件‑in‑the‑loop NAS:架构搜索显式优化边缘设备的延迟和内存限制,而不仅仅是 FLOPs 或参数量。
- 可扩展模型族:六个密集变体(350 M – 2.6 B 参数)以及一个 8.3 B 的 mixture‑of‑experts (MoE) 模型,单个 token 只激活 1.5 B 参数。全部支持 32 K 上下文窗口。
- 训练管线创新:
- 温度调节、解耦的 Top‑K 知识蒸馏,避免教师与学生之间的 “支持不匹配”。
- 课程学习,按难度递增顺序喂入数据。
- 三阶段后训练配方(监督微调 → 长度归一化偏好优化 → 模型合并)。
- 多模态扩展:
- LFM2‑VL(视觉‑语言)配备令牌高效的视觉前端,可调节准确率‑延迟权衡。
- LFM2‑Audio(语音‑到‑语音)采用独立的音频编码器/解码器管线,实现实时交互。
- LFM2‑ColBERT(检索)提供低延迟的多语言查询/文档编码。
- 开源部署套件:提供 ExecuTorch、llama.cpp 和 vLLM 的即用包,便于快速在边缘部署。
方法论
-
带真实约束的架构搜索
- 作者在目标 CPU 上实际测量推理时间和内存占用,循环进行神经架构搜索。
- 搜索空间混合了 短卷积(快速、捕获局部模式)和 分组查询注意力(轻量全局上下文)。
-
训练方案
- 温度调节 Top‑K 蒸馏:学生模型学习教师的 Top‑K logits,但温度会逐步退火,以在不同训练阶段保持学习信号的稳定。
- 课程数据排序:按难度(例如 token 熵)对训练数据排序,使模型先掌握易模式,再处理更难的样本。
- 三阶段后训练配方:
- 监督微调 在任务特定数据上进行。
- 长度归一化偏好优化(轻量化的 RLHF‑式步骤,兼顾 32 K 上下文)。
- 模型合并 将多个微调检查点融合,以提升鲁棒性。
-
多模态适配
- 视觉令牌由轻量 CNN‑基 tokenizer 生成,可根据延迟预算进行节流。
- 音频管线将编码/解码拆分,支持子秒级流式推理。
-
评估
- 在 10–12 万亿 token 的网页文本、代码和多模态语料上进行训练。
- 在标准语言(IFEval、GSM8K)、视觉‑语言(VQAv2、COCO)、语音(LibriSpeech、VCTK)以及检索(MS‑MARCO、多语言 BEIR)套件上进行基准测试。
结果与发现
| 模型 | 参数 | IFEval | GSM8K | VQAv2 (VL) | LibriSpeech (Audio) | 检索 (ColBERT) |
|---|---|---|---|---|---|---|
| LFM2‑350M | 0.35 B | 71.2% | 74.8% | 68.5% | 9.2 % WER | 71.3 % MRR |
| LFM2‑2.6B | 2.6 B | 79.56% | 82.41% | 78.1% | 6.8 % WER | 78.9 % MRR |
| LFM2‑MoE (8.3 B/1.5 B) | 8.3 B (1.5 B active) | 81.3% | 84.7% | 80.4% | 5.9 % WER | 81.2 % MRR |
- 延迟:在典型笔记本 CPU(Intel i7‑12700H)上,LFM2‑2.6B 的预填充和解码速度比同等规模的密集 LLaMA‑2 基线快 约 2 倍,且内存占用降低约 30%。
- 多模态权衡:LFM2‑VL 将视觉令牌分辨率降低 50% 只会导致 2‑3% 的准确率下降,使其在手机级 SoC 上实现 <100 ms 的图像条件生成。
- 实时语音:LFM2‑Audio 实现 ≤ 150 ms 的端到端延迟,性能可与体积三倍以上的模型相媲美。
总体而言,研究表明 结合硬件约束的架构协同设计 能在不牺牲最先进性能的前提下,交付可在边缘运行的基础模型。
实际意义
- 边缘 AI 产品:开发者可将 2.6 B LFM2 模型直接嵌入移动应用、可穿戴设备或 IoT 网关,实现本地聊天、摘要或代码辅助,摆脱对云 API 的依赖,降低延迟与隐私风险。
- 实时多模态助手:LFM2‑VL 可调的视觉令牌管线使在头戴式 AR 设备上即时回答视觉查询成为可能。
- 语音‑到‑语音机器人:LFM2‑Audio 的流式架构支持在单核 CPU 上运行的低延迟语音助手或翻译设备。
- 搜索与检索服务:LFM2‑ColBERT 提供快速的多语言编码器,可在对延迟敏感的搜索后端或个人知识库工具中部署,无需 GPU 加速。
- 开源生态:提供的 ExecuTorch、llama.cpp 与 vLLM 包让团队能够直接将模型接入现有推理栈,加速原型和生产部署。
局限性与未来工作
- 纯 CPU 的扩展上限:虽然 MoE 通过激活子集参数降低计算量,但路由开销仍导致相较于同等活跃规模的密集模型出现轻微延迟惩罚。
- 领域特定微调:极低资源领域(如医学术语)仍需额外的监督数据;当前课程学习未专门针对这些细分领域。
- 硬件多样性:NAS 仅在有限的 x86 CPU 上完成;将搜索扩展至 ARM SoC、GPU 或新兴 NPU 可能发现更优的权衡。
- 鲁棒性与对齐:偏好优化侧重长度归一化奖励,更广泛的对齐(安全性、事实性)仍是未解研究方向。
未来工作计划探索 动态稀疏性(运行时自适应注意力模式)、跨模态课程学习,以及 自动化部署流水线,根据开发者的硬件预算精准裁剪模型族。
作者
- Alexander Amini
- Anna Banaszak
- Harold Benoit
- Arthur Böök
- Tarek Dakhran
- Song Duong
- Alfred Eng
- Fernando Fernandes
- Marc Härkönen
- Anne Harrington
- Ramin Hasani
- Saniya Karwa
- Yuri Khrustalev
- Maxime Labonne
- Mathias Lechner
- Valentine Lechner
- Simon Lee
- Zetian Li
- Noel Loo
- Jacob Marks
- Edoardo Mosca
- Samuel J. Paech
- Paul Pak
- Rom N. Parnichkun
- Alex Quach
- Ryan Rogers
- Daniela Rus
- Nayan Saxena
- Bettina Schlager
- Tim Seyde
- Jimmy T. H. Smith
- Aditya Tadimeti
- Neehal Tumma
论文信息
- arXiv ID: 2511.23404v1
- 分类: cs.LG, cs.AI
- 发表时间: 2025 年 11 月 28 日
- PDF: Download PDF