[论文] LFM2 技术报告

发布: 2个月前 (2025年11月29日 GMT+8 01:56)

8 分钟阅读

原文: arXiv

Source: arXiv - 2511.23404v1

概览

LFM2 技术报告推出了 Liquid Foundation Models (LFM2)——一类专为智能手机、笔记本电脑和嵌入式 CPU 等边缘设备实现快速、低内存推理的大型语言模型。通过将硬件‑in‑the‑loop 架构搜索与新颖的训练技巧相结合，作者实现的模型在保持顶级基准分数的同时，推理速度比同等规模的替代模型快 2 倍。

关键贡献

混合骨干网络设计：将门控短程卷积与少量分组查询注意力块相结合，显著降低 CPU 延迟。
硬件‑in‑the‑loop NAS：架构搜索显式优化边缘设备的延迟和内存限制，而不仅仅是 FLOPs 或参数量。
可扩展模型族：六个密集变体（350 M – 2.6 B 参数）以及一个 8.3 B 的 mixture‑of‑experts (MoE) 模型，单个 token 只激活 1.5 B 参数。全部支持 32 K 上下文窗口。
训练管线创新：
- 温度调节、解耦的 Top‑K 知识蒸馏，避免教师与学生之间的 “支持不匹配”。
- 课程学习，按难度递增顺序喂入数据。
- 三阶段后训练配方（监督微调 → 长度归一化偏好优化 → 模型合并）。
多模态扩展：
- LFM2‑VL（视觉‑语言）配备令牌高效的视觉前端，可调节准确率‑延迟权衡。
- LFM2‑Audio（语音‑到‑语音）采用独立的音频编码器/解码器管线，实现实时交互。
- LFM2‑ColBERT（检索）提供低延迟的多语言查询/文档编码。
开源部署套件：提供 ExecuTorch、llama.cpp 和 vLLM 的即用包，便于快速在边缘部署。

方法论

带真实约束的架构搜索
- 作者在目标 CPU 上实际测量推理时间和内存占用，循环进行神经架构搜索。
- 搜索空间混合了 短卷积（快速、捕获局部模式）和 分组查询注意力（轻量全局上下文）。
训练方案
- 温度调节 Top‑K 蒸馏：学生模型学习教师的 Top‑K logits，但温度会逐步退火，以在不同训练阶段保持学习信号的稳定。
- 课程数据排序：按难度（例如 token 熵）对训练数据排序，使模型先掌握易模式，再处理更难的样本。
- 三阶段后训练配方：
  - 监督微调 在任务特定数据上进行。
  - 长度归一化偏好优化（轻量化的 RLHF‑式步骤，兼顾 32 K 上下文）。
  - 模型合并 将多个微调检查点融合，以提升鲁棒性。
多模态适配
- 视觉令牌由轻量 CNN‑基 tokenizer 生成，可根据延迟预算进行节流。
- 音频管线将编码/解码拆分，支持子秒级流式推理。
评估
- 在 10–12 万亿 token 的网页文本、代码和多模态语料上进行训练。
- 在标准语言（IFEval、GSM8K）、视觉‑语言（VQAv2、COCO）、语音（LibriSpeech、VCTK）以及检索（MS‑MARCO、多语言 BEIR）套件上进行基准测试。

结果与发现

模型	参数	IFEval	GSM8K	VQAv2 (VL)	LibriSpeech (Audio)	检索 (ColBERT)
LFM2‑350M	0.35 B	71.2%	74.8%	68.5%	9.2 % WER	71.3 % MRR
LFM2‑2.6B	2.6 B	79.56%	82.41%	78.1%	6.8 % WER	78.9 % MRR
LFM2‑MoE (8.3 B/1.5 B)	8.3 B (1.5 B active)	81.3%	84.7%	80.4%	5.9 % WER	81.2 % MRR

延迟：在典型笔记本 CPU（Intel i7‑12700H）上，LFM2‑2.6B 的预填充和解码速度比同等规模的密集 LLaMA‑2 基线快 约 2 倍，且内存占用降低约 30%。
多模态权衡：LFM2‑VL 将视觉令牌分辨率降低 50% 只会导致 2‑3% 的准确率下降，使其在手机级 SoC 上实现 <100 ms 的图像条件生成。
实时语音：LFM2‑Audio 实现 ≤ 150 ms 的端到端延迟，性能可与体积三倍以上的模型相媲美。

总体而言，研究表明 结合硬件约束的架构协同设计 能在不牺牲最先进性能的前提下，交付可在边缘运行的基础模型。

实际意义

边缘 AI 产品：开发者可将 2.6 B LFM2 模型直接嵌入移动应用、可穿戴设备或 IoT 网关，实现本地聊天、摘要或代码辅助，摆脱对云 API 的依赖，降低延迟与隐私风险。
实时多模态助手：LFM2‑VL 可调的视觉令牌管线使在头戴式 AR 设备上即时回答视觉查询成为可能。
语音‑到‑语音机器人：LFM2‑Audio 的流式架构支持在单核 CPU 上运行的低延迟语音助手或翻译设备。
搜索与检索服务：LFM2‑ColBERT 提供快速的多语言编码器，可在对延迟敏感的搜索后端或个人知识库工具中部署，无需 GPU 加速。
开源生态：提供的 ExecuTorch、llama.cpp 与 vLLM 包让团队能够直接将模型接入现有推理栈，加速原型和生产部署。

局限性与未来工作

纯 CPU 的扩展上限：虽然 MoE 通过激活子集参数降低计算量，但路由开销仍导致相较于同等活跃规模的密集模型出现轻微延迟惩罚。
领域特定微调：极低资源领域（如医学术语）仍需额外的监督数据；当前课程学习未专门针对这些细分领域。
硬件多样性：NAS 仅在有限的 x86 CPU 上完成；将搜索扩展至 ARM SoC、GPU 或新兴 NPU 可能发现更优的权衡。
鲁棒性与对齐：偏好优化侧重长度归一化奖励，更广泛的对齐（安全性、事实性）仍是未解研究方向。

未来工作计划探索 动态稀疏性（运行时自适应注意力模式）、跨模态课程学习，以及 自动化部署流水线，根据开发者的硬件预算精准裁剪模型族。

作者

Alexander Amini
Anna Banaszak
Harold Benoit
Arthur Böök
Tarek Dakhran
Song Duong
Alfred Eng
Fernando Fernandes
Marc Härkönen
Anne Harrington
Ramin Hasani
Saniya Karwa
Yuri Khrustalev
Maxime Labonne
Mathias Lechner
Valentine Lechner
Simon Lee
Zetian Li
Noel Loo
Jacob Marks
Edoardo Mosca
Samuel J. Paech
Paul Pak
Rom N. Parnichkun
Alex Quach
Ryan Rogers
Daniela Rus
Nayan Saxena
Bettina Schlager
Tim Seyde
Jimmy T. H. Smith
Aditya Tadimeti
Neehal Tumma

论文信息

arXiv ID: 2511.23404v1
分类: cs.LG, cs.AI
发表时间: 2025 年 11 月 28 日
PDF: Download PDF

[论文] LFM2 技术报告

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 思考即行动：通过多轮交互在 LLM 中构建高效的 World Model 推理

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] 进步的代价：算法效率与 AI 推理成本下降

[Paper] Physics-Informed Neural Networks 用于热物性属性检索