[Paper] 探索表格基础模型的微调

发布: (2026年1月15日 GMT+8 01:40)
7 min read
原文: arXiv

Source: arXiv - 2601.09654v1

概览

论文 Exploring Fine‑Tuning for Tabular Foundation Models 研究了在结构化(表格)数据上,大型语言风格模型的令人印象深刻的零样本能力是否可以通过微调进一步提升。通过系统性地比较零样本推理、元学习、完整监督微调(SFT)以及参数高效微调(PEFT)在多个公开表格基准上的表现,作者揭示了微调何时以及何时并未真正带来帮助。

关键贡献

  • 首次大规模实证研究针对表格基础模型(TFMs)的微调策略,在多样化基准(TALENT、OpenML‑CC18、TabZilla)上进行。
  • 全面比较四种训练模式:Zero‑Shot、Meta‑Learning、全监督微调(SFT)和参数高效微调(PEFT)。
  • 深入分析数据集特征(规模、类别不平衡、特征维度)如何影响微调后的性能、校准和公平性。
  • 实用指南,帮助实践者判断何时微调可能带来提升,何时可能降低准确性或模型可靠性。
  • 开源评估框架(代码和脚本),可用于未来的TFM研究。

方法论

  1. 模型与预训练 – 作者使用了两个公开发布的 TFM(一个仅解码器的 transformer 和一个编码器‑解码器变体),它们在大规模异构表格语料库上进行预训练。
  2. 基准 – 三个具有代表性的套件:
    • TALENT(异构分类/回归任务)
    • OpenML‑CC18(一个精选的 18 个分类问题集合,规模/不平衡程度各不相同)
    • TabZilla(大规模回归和分类任务)
  3. 微调策略
    • Zero‑Shot – 使用任务描述提示模型,直接进行预测。
    • Meta‑Learning – 在众多任务上训练一个轻量级的“adapter”,采用 MAML‑style 目标,然后在未见任务上评估。
    • Full Supervised Fine‑Tuning (SFT) – 在目标数据集上对所有模型参数进行反向传播。
    • Parameter‑Efficient Fine‑Tuning (PEFT) – 冻结主干,仅训练低秩 adapter 或 LoRA 模块。
  4. 评估指标 – 分类任务使用 Accuracy/F1,回归任务使用 RMSE,置信质量使用 Expected Calibration Error (ECE),公平性使用 demographic parity / equalized odds。
  5. 统计分析 – 配对 bootstrap 检验和回归分析,用于关联数据集因素(例如行数、类别比例、特征数量)与观察到的提升或下降。

结果与发现

策略相对于零样本的典型 Δ 准确率校准 (ECE)公平性影响
Meta‑Learning小至中等数据集 (≤ 5 k 行) 提升 +2–5 %略有改善中性
PEFT高维 (> 200 特征) 或高度不平衡数据提升 +1–3 %与零样本相当对弱势群体有轻微收益
Full SFT大多数基准下降 −1 % 到 −4 %;在非常大且平衡的数据集上偶尔提升 +3 %常出现恶化(ECE 更高)当数据倾斜时可能放大偏见
Zero‑Shot基线(通常已接近最新水平)整体校准最佳作为公平性的稳定参考
  • 数据集规模重要:只有当目标集超过约 10 k 行且相对平衡时,微调才能带来持续收益。
  • 特征维度:PEFT 在列数众多的任务中表现突出,因为低秩适配器能够捕获跨特征交互而不易过拟合。
  • 校准:Zero‑Shot 和 PEFT 能保持模型良好的置信度校准;Full SFT 往往会降低校准,使下游的风险感知决策更加困难。
  • 公平性:Meta‑Learning 和 PEFT 在不平衡数据集上能适度提升公平性指标,而 SFT 则可能加剧差异。

实际意义

  • 部署者通常可以跳过微调 – 如果你拥有一个预训练的 TFM 并且表格数据集规模适中,零样本提示可能已经能够在工程开销更低的情况下提供竞争力的结果。
  • 何时进行微调
    • 大且干净、平衡的表格(≥ 10 k 行)– 完全的 SFT 可能略胜零样本。
    • 高维或严重不平衡的数据 – 使用 PEFT 适配器(例如 LoRA)可以在不牺牲校准性的前提下提升几个百分点。
  • 对风险敏感的应用(信用评分、医疗分诊)应优先考虑校准;研究表明应坚持使用零样本或 PEFT 而非完整的 SFT。
  • 以公平性为首的流水线 – 引入元学习阶段或 PEFT 可以缓解在朴素微调时有时出现的偏差放大问题。
  • 成本与延迟 – PEFT 只增加几千个可训练参数,这意味着微调可以在单个 GPU 上在几分钟内完成,而完整的 SFT 可能需要多 GPU 资源和更长的训练周期。

限制与未来工作

  • 分析仅限于两种 TFM 架构;对于更新、更大的模型或在特定领域语料库上训练的模型,结果可能会有所不同。
  • 只考察了三个基准套件;实际企业数据集(具有极端稀疏性或混合数据类型,如时间序列、文本)仍未被探索。
  • 本研究聚焦于监督式微调;半监督或自训练方法可能进一步缩小低标签情境下的性能差距。
  • 未来研究方向包括:将 PEFT 扩展到多任务适配器,研究持续学习场景,以及开发基于数据集诊断自动推荐最佳微调策略的工具。

作者

  • Aditya Tanna
  • Pratinav Seth
  • Mohamed Bouadi
  • Vinay Kumar Sankarapu

论文信息

  • arXiv ID: 2601.09654v1
  • 分类: cs.LG
  • 出版日期: 2026年1月14日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »