[Paper] LabelFusion:学习融合 LLMs 和 Transformer 分类器以实现稳健的文本分类
发布: (2025年12月12日 GMT+8 00:39)
6 min read
原文: arXiv
Source: arXiv - 2512.10793v1
概述
本文提出 LabelFusion,一种即插即用的集成方法,能够学习将传统的 transformer 分类器(如 RoBERTa)与一个或多个大型语言模型(LLM),例如 GPT‑4、Gemini 或 DeepSeek,进行融合。通过融合这两条信号流,系统能够提供更高质量的文本分类预测,同时让用户在准确率、延迟和 API 成本之间进行平衡——这使其在生产级 NLP 流水线中具有吸引力。
关键贡献
- AutoFusionClassifier API – 一个高级、零配置的入口点,可端到端训练整个融合流水线。
- 混合表示 – 将 transformer 的上下文嵌入与 LLM 生成的每类分数(通过结构化提示获得)拼接在一起。
- FusionMLP – 一个轻量级的多层感知机,学习两种来源的最优加权,而不是依赖手工设计的启发式规则。
- 成本感知推理 – 框架能够在“高准确率”(涉及 LLM)和“低延迟/低成本”(仅 transformer)模式之间动态切换。
- 强劲的实证结果 – 在 AG News 上实现 92.4 % 的准确率,在 10 类 Reuters‑21578 切分上实现 92.3 % 的准确率,均优于单独的 transformer 和 LLM 基线。
方法论
- 主干 Transformer – 一个标准的微调 transformer(例如 RoBERTa‑base)处理输入文本并输出一个池化的嵌入向量。
- LLM 提示 – 对每个目标类别,发送一个简短提示(例如 “这篇文章是关于 体育 吗?请回答 Yes/No”)给选定的 LLM。LLM 的文本响应被解析为每类的置信度分数。
- 特征融合 – 将 transformer 嵌入(≈768 维)与 LLM 分数向量(每类一个条目)拼接。
- FusionMLP – 一个浅层 MLP(通常 2–3 层,ReLU 激活)接收融合向量并输出最终的类别概率。整个流水线——transformer、提示逻辑(在训练期间被视为可微代理)以及 FusionMLP——使用交叉熵损失共同优化。
- 训练与推理模式 – 在训练时,LLM 分数由一个模拟 LLM 行为的 “teacher‑model” 产生,使过程保持完全可微。推理时,可根据请求打开或关闭真实 LLM 调用,实现成本感知的权衡。
结果与发现
| 数据集 | Baseline RoBERTa | Baseline LLM (zero‑shot) | LabelFusion (full) |
|---|---|---|---|
| AG News(4 类) | 90.1 % | 88.5 % | 92.4 % |
| Reuters‑21578(10 类) | 90.7 % | 89.2 % | 92.3 % |
- 鲁棒性:当单个组件退化(例如 LLM 被限流或 transformer 训练不足)时,LabelFusion 仍能保持性能。
- 延迟/成本权衡:在 “快速” 模式(仅 transformer)下,准确率仅下降约 1 %,而延迟减半且 API 成本消失。
- 消融实验:去除 LLM 分数会导致准确率下降约 1.8 %;去除 transformer 嵌入会导致下降约 2.2 %,验证了两者的互补优势。
实际意义
- 生产即插即用 – 开发者只需用
AutoFusionClassifier替换单模型分类器,即可在无需重新设计数据流水线的情况下获得可观的性能提升。 - 动态成本控制 – SaaS 平台可以提供一个 “预算” 旋钮,决定是否为每个请求调用 LLM,实现按请求的成本优化。
- 多标签扩展 – 相同的融合逻辑适用于多标签任务(例如为新闻文章打上多个主题标签),因此适合推荐系统和内容审核。
- 领域适应 – 由于 LLM 带来了世界知识,融合模型能够更快适应新出现的词汇(如新技术术语),而无需对 transformer 进行大量再训练。
局限性与未来工作
- 提示工程开销 – 为每个类别设计高质量提示仍需人工投入;自动化提示生成是一个开放的研究方向。
- LLM 延迟波动 – 实时 LLM 调用在高负载下可能不可预测;论文提出了缓存策略但未进行深入评估。
- 向上百类的可扩展性 – 为每个类别拼接一个分数在标签空间非常大时可能导致内存压力;未来工作可探索层次化或稀疏融合机制。
- 可微 LLM 代理 – 训练时的代理仅近似 LLM 行为;代理与真实 LLM 响应之间的差异可能影响最终性能,作者计划通过强化学习微调来弥合此差距。
作者
- Michael Schlee
- Christoph Weisser
- Timo Kivimäki
- Melchizedek Mashiku
- Benjamin Saefken
论文信息
- arXiv ID: 2512.10793v1
- 分类: cs.CL, cs.AI
- 发表时间: 2025 年 12 月 11 日
- PDF: Download PDF