[Paper] 提升缅甸新闻分类的 Kolmogorov-Arnold 网络头部微调

发布: 2个月前 (2025年11月26日 GMT+8 13:50)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.21081v1

概览

本文研究了一种简单却强大的技巧用于缅甸语新闻分类：将常用的密集层（MLP）头部替换为 Kolmogorov‑Arnold 网络 (KAN) 头部。仅在冻结的嵌入（TF‑IDF、fastText 或多语言 Transformer）之上微调这个分类层，作者展示了 KAN 能够匹配或超越传统 MLP，同时往往更快且参数更高效——这对低资源语言项目具有吸引力。

主要贡献

引入基于 KAN 的分类头（FourierKAN、EfficientKAN、FasterKAN），用于低资源文本分类。
在四类嵌入上对比 KAN 头与标准 MLP（TF‑IDF、fastText、mBERT、Distil‑mBERT）。
在缅甸语新闻分类上实现了最新的 F1 分数 (0.928)，使用 EfficientKAN + fastText。
展示了速度‑精度权衡：FasterKAN 在保持接近 MLP 性能的同时降低了延迟。
提供了可开源复现的流水线，可适配任何标注数据有限的语言。

方法论

数据与任务 – 使用一个精心整理的缅甸语新闻数据集（多类别），划分为训练/验证/测试集。
嵌入 – 使用四种预计算表示：
- 稀疏 TF‑IDF 向量
- 密集 fastText 词向量平均（在缅甸语语料上预训练）
- 多语言 BERT (mBERT) 与其蒸馏变体 (Distil‑mBERT)——在训练期间保持冻结。
分类头 – 对每种嵌入实例化三种 KAN 变体：
- FourierKAN – 将每个神经元构建为 Fourier 基函数的加和。
- EfficientKAN – 使用基于样条的基函数，实现紧凑且可微的映射。
- FasterKAN – 基于网格的近似，以极小的表达力损失换取速度提升。
  基线头为经典的两层 ReLU 激活 MLP。
训练 – 仅微调头部参数（约占总模型参数的 1–2%）。采用 Adam 优化器、在验证集 F1 上早停，以及标准的类别平衡交叉熵损失。
评估 – 记录每个头‑嵌入组合的宏平均 F1、推理延迟（每样本毫秒）和参数数量。

结果与发现

嵌入	头部	宏 F1	参数 (M)	推理时间 (ms)
fastText	EfficientKAN	0.928	0.12	1.8
fastText	FasterKAN	0.921	0.09	1.2
fastText	MLP (baseline)	0.914	0.15	2.3
mBERT	EfficientKAN	0.917	0.14	3.1
mBERT	MLP	0.915	0.16	3.4
mBERT	FasterKAN	0.910	0.11	2.8
TF‑IDF	EfficientKAN	0.862	0.08	1.5
TF‑IDF	MLP	0.858	0.10	1.7
Distil‑mBERT	FasterKAN	0.904	0.12	2.5

表达能力：KAN 头部始终缩小甚至超越 MLP 基线的差距，尤其在 fastText 上，非线性样条基函数捕捉到了细微的词汇模式。
效率：FasterKAN 将推理时间相比 MLP 减少约 30%，而 F1 仅低于最佳模型 0.5%。
对嵌入选择的鲁棒性：即使使用简单的 TF‑IDF 向量，KAN 也能提升性能，说明头部的函数形式与编码器同等重要。

实际意义

低资源部署：构建面向弱势语言的分类器时，可保持大型多语言编码器冻结（节省 GPU 内存），并换入轻量级 KAN 头部以获得显著提升。
边缘与移动场景：FasterKAN 的低参数量和快速推理使其适用于设备端新闻分类、聊天机器人意图检测或内容审核等带宽受限的应用。
快速原型：由于仅训练头部，实验在单 GPU 上即可在数分钟完成，便于快速 A/B 测试新标签集或领域漂移。
可迁移性：相同的 KAN‑头架构可直接套用到任何冻结的嵌入（如图像的 CLIP、音频的 wav2vec），为跨模态低资源任务打开新途径。

局限性与未来工作

冻结编码器假设——本研究未探索对 Transformer 的联合微调；在同时更新编码器时，收益可能更大（或更小）。
对极大标签空间的可扩展性——实验仅限约 10 个新闻类别；在数百类情况下的表现尚未验证。
可解释性——虽然 KAN 在数学上有扎实基础，但对文本的样条/傅里叶基函数可视化仍是未解的研究问题。
更广语言覆盖——作者计划在其他低资源语言（如高棉语、老挝语）以及多语言多任务设置上评估 KAN 头部。

作者

Thura Aung
Eaint Kay Khaing Kyaw
Ye Kyaw Thu
Thazin Myint Oo
Thepchai Supnithi

论文信息

arXiv ID: 2511.21081v1
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025 年 11 月 26 日
PDF: Download PDF

[Paper] 提升缅甸新闻分类的 Kolmogorov-Arnold 网络头部微调

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] BanglaASTE：一种用于Bangla电子商务评论中方面-情感-观点抽取的创新框架，采用集成深度学习

[Paper] 开发伊桑语的开放对话语音语料库

[Paper] 使用语音特征的对齐增强Transformer在低资源缅甸语中的ASR错误纠正

AI 代理在区块链智能合约中发现 460 万美元的漏洞