[Paper] TiME：用于高效 NLP 流程的轻量单语编码器

发布: 1个月前 (2025年12月17日 GMT+8 02:02)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.14645v1

请提供您希望翻译的具体文本内容（例如摘要、引言、结论等），我将按照要求保留原始链接并将文本翻译成简体中文。

概览

本文介绍了 TiME（Tiny Monolingual Encoders），这是一系列为速度关键的 NLP 流程设计的轻量级语言模型。通过利用现代训练技巧——尤其是知识蒸馏——作者展示了即使在低资源语言上，也能在显著降低延迟、提升吞吐量并减少能耗的同时，获得“足够好”的性能。

教师选择 – 作者们从强大的多语言 Transformer（例如 mBERT、XLM‑R）开始，这些模型已经了解许多语言。
学生架构 – 他们设计了一个紧凑的编码器（12–24 M 参数），使用绝对位置嵌入、浅层前馈网络堆叠以及较小的隐藏层尺寸。
蒸馏策略 –
- Logits 蒸馏：学生在大规模未标注语料上模仿教师的软分类概率。
- 表示蒸馏：使用 L2 损失对齐中间隐藏状态，即使教师使用相对位置编码。
- 语言特定微调：在通用蒸馏之后，对每个学生在目标语言的单语数据上进行微调。
训练技巧 – 混合精度、梯度检查点以及激进的数据增强，使训练成本低且稳定。
评估套件 – 标准 GLUE 风格任务（情感分析、自然语言推理、句子改写）、词级任务（命名实体识别、词性标注），以及多语言基准（XGLUE）用于测试跨语言迁移。

模型	参数	平均 GLUE 分数	延迟 (ms) ↓	吞吐量 (句子/秒) ↑	能耗 (每千标记 J) ↓
TiME‑en (12 M)	12 M	84.2	3.1	1,200	0.45
mBERT (110 M)	110 M	86.5	12.8	300	2.9
XLM‑R (550 M)	550 M	88.1	28.4	95	6.7

边缘与移动部署 – 开发者现在可以在智能手机、可穿戴设备或物联网网关上部署 NLP 功能（情感分析、意图检测、关键词提取），无需调用云端。
成本效益的扩展 – 大规模批处理（例如日志分析、内容审核）可以显著加速，从而降低云计算费用。
可持续性 – 更低的功耗符合企业 ESG 目标，并延长设备助手的电池续航。
低资源语言支持 – 针对新兴市场的公司可以采用 TiME 模型来处理以前需要重量级多语言模型的语言，从而节省延迟和授权费用。
即插即用 – 已发布的检查点遵循 Hugging Face 🤗 Transformers API，因而将 BERT 风格的编码器替换为 TiME 变体只需几行代码。

Upper‑bound performance – TiME 仍然落后于在需要深层世界知识的任务（例如开放域 QA）上的最先进大模型。
Domain adaptation – 论文聚焦于通用基准；在高度专业化语料上微调可能需要额外的数据或训练技巧。
Multilingual extension – 虽然单语学生表现出色，但真正通用的极小多语言编码器仍是一个未解的挑战。
Future directions suggested include exploring adapter‑style distillation, quantization‑aware training, and continual learning to keep tiny models up‑to‑date without full re‑training.
建议的未来方向包括探索 adapter‑style distillation、quantization‑aware training 和 continual learning，以在无需完整重新训练的情况下保持小模型的最新状态。