[Paper] 提升缅甸新闻分类的 Kolmogorov-Arnold 网络头部微调
发布: (2025年11月26日 GMT+8 13:50)
6 min read
原文: arXiv
Source: arXiv - 2511.21081v1
概览
本文研究了一种简单却强大的技巧用于缅甸语新闻分类:将常用的密集层(MLP)头部替换为 Kolmogorov‑Arnold 网络 (KAN) 头部。仅在冻结的嵌入(TF‑IDF、fastText 或多语言 Transformer)之上微调这个分类层,作者展示了 KAN 能够匹配或超越传统 MLP,同时往往更快且参数更高效——这对低资源语言项目具有吸引力。
主要贡献
- 引入基于 KAN 的分类头(FourierKAN、EfficientKAN、FasterKAN),用于低资源文本分类。
- 在四类嵌入上对比 KAN 头与标准 MLP(TF‑IDF、fastText、mBERT、Distil‑mBERT)。
- 在缅甸语新闻分类上实现了最新的 F1 分数 (0.928),使用 EfficientKAN + fastText。
- 展示了速度‑精度权衡:FasterKAN 在保持接近 MLP 性能的同时降低了延迟。
- 提供了可开源复现的流水线,可适配任何标注数据有限的语言。
方法论
- 数据与任务 – 使用一个精心整理的缅甸语新闻数据集(多类别),划分为训练/验证/测试集。
- 嵌入 – 使用四种预计算表示:
- 稀疏 TF‑IDF 向量
- 密集 fastText 词向量平均(在缅甸语语料上预训练)
- 多语言 BERT (mBERT) 与其蒸馏变体 (Distil‑mBERT)——在训练期间保持冻结。
- 分类头 – 对每种嵌入实例化三种 KAN 变体:
- FourierKAN – 将每个神经元构建为 Fourier 基函数的加和。
- EfficientKAN – 使用基于样条的基函数,实现紧凑且可微的映射。
- FasterKAN – 基于网格的近似,以极小的表达力损失换取速度提升。
基线头为经典的两层 ReLU 激活 MLP。
- 训练 – 仅微调头部参数(约占总模型参数的 1–2%)。采用 Adam 优化器、在验证集 F1 上早停,以及标准的类别平衡交叉熵损失。
- 评估 – 记录每个头‑嵌入组合的宏平均 F1、推理延迟(每样本毫秒)和参数数量。
结果与发现
| 嵌入 | 头部 | 宏 F1 | 参数 (M) | 推理时间 (ms) |
|---|---|---|---|---|
| fastText | EfficientKAN | 0.928 | 0.12 | 1.8 |
| fastText | FasterKAN | 0.921 | 0.09 | 1.2 |
| fastText | MLP (baseline) | 0.914 | 0.15 | 2.3 |
| mBERT | EfficientKAN | 0.917 | 0.14 | 3.1 |
| mBERT | MLP | 0.915 | 0.16 | 3.4 |
| mBERT | FasterKAN | 0.910 | 0.11 | 2.8 |
| TF‑IDF | EfficientKAN | 0.862 | 0.08 | 1.5 |
| TF‑IDF | MLP | 0.858 | 0.10 | 1.7 |
| Distil‑mBERT | FasterKAN | 0.904 | 0.12 | 2.5 |
- 表达能力:KAN 头部始终缩小甚至超越 MLP 基线的差距,尤其在 fastText 上,非线性样条基函数捕捉到了细微的词汇模式。
- 效率:FasterKAN 将推理时间相比 MLP 减少约 30%,而 F1 仅低于最佳模型 0.5%。
- 对嵌入选择的鲁棒性:即使使用简单的 TF‑IDF 向量,KAN 也能提升性能,说明头部的函数形式与编码器同等重要。
实际意义
- 低资源部署:构建面向弱势语言的分类器时,可保持大型多语言编码器冻结(节省 GPU 内存),并换入轻量级 KAN 头部以获得显著提升。
- 边缘与移动场景:FasterKAN 的低参数量和快速推理使其适用于设备端新闻分类、聊天机器人意图检测或内容审核等带宽受限的应用。
- 快速原型:由于仅训练头部,实验在单 GPU 上即可在数分钟完成,便于快速 A/B 测试新标签集或领域漂移。
- 可迁移性:相同的 KAN‑头架构可直接套用到任何冻结的嵌入(如图像的 CLIP、音频的 wav2vec),为跨模态低资源任务打开新途径。
局限性与未来工作
- 冻结编码器假设——本研究未探索对 Transformer 的联合微调;在同时更新编码器时,收益可能更大(或更小)。
- 对极大标签空间的可扩展性——实验仅限约 10 个新闻类别;在数百类情况下的表现尚未验证。
- 可解释性——虽然 KAN 在数学上有扎实基础,但对文本的样条/傅里叶基函数可视化仍是未解的研究问题。
- 更广语言覆盖——作者计划在其他低资源语言(如高棉语、老挝语)以及多语言多任务设置上评估 KAN 头部。
作者
- Thura Aung
- Eaint Kay Khaing Kyaw
- Ye Kyaw Thu
- Thazin Myint Oo
- Thepchai Supnithi
论文信息
- arXiv ID: 2511.21081v1
- 分类: cs.CL, cs.AI, cs.LG
- 发布日期: 2025 年 11 月 26 日
- PDF: Download PDF