[Paper] 提升缅甸新闻分类的 Kolmogorov-Arnold 网络头部微调

发布: (2025年11月26日 GMT+8 13:50)
6 min read
原文: arXiv

Source: arXiv - 2511.21081v1

概览

本文研究了一种简单却强大的技巧用于缅甸语新闻分类:将常用的密集层(MLP)头部替换为 Kolmogorov‑Arnold 网络 (KAN) 头部。仅在冻结的嵌入(TF‑IDF、fastText 或多语言 Transformer)之上微调这个分类层,作者展示了 KAN 能够匹配或超越传统 MLP,同时往往更快且参数更高效——这对低资源语言项目具有吸引力。

主要贡献

  • 引入基于 KAN 的分类头(FourierKAN、EfficientKAN、FasterKAN),用于低资源文本分类。
  • 在四类嵌入上对比 KAN 头与标准 MLP(TF‑IDF、fastText、mBERT、Distil‑mBERT)。
  • 在缅甸语新闻分类上实现了最新的 F1 分数 (0.928),使用 EfficientKAN + fastText。
  • 展示了速度‑精度权衡:FasterKAN 在保持接近 MLP 性能的同时降低了延迟。
  • 提供了可开源复现的流水线,可适配任何标注数据有限的语言。

方法论

  1. 数据与任务 – 使用一个精心整理的缅甸语新闻数据集(多类别),划分为训练/验证/测试集。
  2. 嵌入 – 使用四种预计算表示:
    • 稀疏 TF‑IDF 向量
    • 密集 fastText 词向量平均(在缅甸语语料上预训练)
    • 多语言 BERT (mBERT) 与其蒸馏变体 (Distil‑mBERT)——在训练期间保持冻结。
  3. 分类头 – 对每种嵌入实例化三种 KAN 变体:
    • FourierKAN – 将每个神经元构建为 Fourier 基函数的加和。
    • EfficientKAN – 使用基于样条的基函数,实现紧凑且可微的映射。
    • FasterKAN – 基于网格的近似,以极小的表达力损失换取速度提升。
      基线头为经典的两层 ReLU 激活 MLP。
  4. 训练 – 仅微调头部参数(约占总模型参数的 1–2%)。采用 Adam 优化器、在验证集 F1 上早停,以及标准的类别平衡交叉熵损失。
  5. 评估 – 记录每个头‑嵌入组合的宏平均 F1、推理延迟(每样本毫秒)和参数数量。

结果与发现

嵌入头部宏 F1参数 (M)推理时间 (ms)
fastTextEfficientKAN0.9280.121.8
fastTextFasterKAN0.9210.091.2
fastTextMLP (baseline)0.9140.152.3
mBERTEfficientKAN0.9170.143.1
mBERTMLP0.9150.163.4
mBERTFasterKAN0.9100.112.8
TF‑IDFEfficientKAN0.8620.081.5
TF‑IDFMLP0.8580.101.7
Distil‑mBERTFasterKAN0.9040.122.5
  • 表达能力:KAN 头部始终缩小甚至超越 MLP 基线的差距,尤其在 fastText 上,非线性样条基函数捕捉到了细微的词汇模式。
  • 效率:FasterKAN 将推理时间相比 MLP 减少约 30%,而 F1 仅低于最佳模型 0.5%。
  • 对嵌入选择的鲁棒性:即使使用简单的 TF‑IDF 向量,KAN 也能提升性能,说明头部的函数形式与编码器同等重要。

实际意义

  • 低资源部署:构建面向弱势语言的分类器时,可保持大型多语言编码器冻结(节省 GPU 内存),并换入轻量级 KAN 头部以获得显著提升。
  • 边缘与移动场景:FasterKAN 的低参数量和快速推理使其适用于设备端新闻分类、聊天机器人意图检测或内容审核等带宽受限的应用。
  • 快速原型:由于仅训练头部,实验在单 GPU 上即可在数分钟完成,便于快速 A/B 测试新标签集或领域漂移。
  • 可迁移性:相同的 KAN‑头架构可直接套用到任何冻结的嵌入(如图像的 CLIP、音频的 wav2vec),为跨模态低资源任务打开新途径。

局限性与未来工作

  • 冻结编码器假设——本研究未探索对 Transformer 的联合微调;在同时更新编码器时,收益可能更大(或更小)。
  • 对极大标签空间的可扩展性——实验仅限约 10 个新闻类别;在数百类情况下的表现尚未验证。
  • 可解释性——虽然 KAN 在数学上有扎实基础,但对文本的样条/傅里叶基函数可视化仍是未解的研究问题。
  • 更广语言覆盖——作者计划在其他低资源语言(如高棉语、老挝语)以及多语言多任务设置上评估 KAN 头部。

作者

  • Thura Aung
  • Eaint Kay Khaing Kyaw
  • Ye Kyaw Thu
  • Thazin Myint Oo
  • Thepchai Supnithi

论文信息

  • arXiv ID: 2511.21081v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 发布日期: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »