[Paper] TabICLv2:更好、更快、可扩展且开放的表格基础模型
发布: (2026年2月12日 GMT+8 02:51)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.11139v1
概述
TabICLv2 是最新的表格数据“基础模型”,在电子表格、CSV 和关系表上推动了大规模预训练模型的极限。通过结合更丰富的合成数据生成器、更智能的架构调整以及全新的优化器,作者展示了单一模型即可在回归和分类任务上击败经过大量调优的集成模型——且运行速度足够快,可在单个 GPU(< 50 GB 内存)上运行。
关键贡献
- 多样化合成预训练引擎 – 自动创建数百万种多样的表格数据集(不同列类型、缺失模式、特征交互),让模型接触广阔的“表格世界”。
- 可扩展的 softmax‑in‑attention – 一种新颖的注意力公式,在长特征序列下保持计算成本低,使模型能够处理数百万行而不会出现内存爆炸。
- Muon 优化器 – 在预训练阶段取代标准的 AdamW,实现更快的收敛以及在下游表格任务上的更好泛化。
- 领先的性能 – 在 TabArena 和 TALENT 基准上,TabICLv2 超越 RealTabPFN‑2.5,尽管后者使用了超参数调优、集成和在真实数据上的微调。
- 开源发布 – 推理代码和预训练权重已公开,合成数据引擎和训练脚本也将很快提供。
Methodology
1. Synthetic Data Generation
- 作者构建了一个流水线,随机抽样模式(数值型、类别型、日期时间型、文本型),注入真实噪声(缺失值、异常值),并使用线性、树模型和神经网络函数的混合方式生成目标变量。
- 这产生了一个高多样性的预训练语料库,模拟了真实世界表格中的异质性,降低了对大规模标注数据集的需求。
2. Model Architecture
- TabICLv2 是一种 transformer‑style 编码器,将每一列视为一个 token,将每一行视为一个“序列”。
- 可扩展的 softmax‑in‑attention 以分块方式对行进行注意力计算,避免了经典自注意力的二次增长,同时保留了捕获跨行长程依赖的能力。
3. Training Protocol
- 预训练在相对较少的步数下进行(相较于早期的 TabPFN 模型),使用 Muon optimizer,该优化器对每个参数的学习率适应性调整比 AdamW 更为激进。
- 不进行任务特定的微调;模型直接通过 in‑context learning 进行评估:将少量示例行 + 一个查询行输入模型,模型预测目标。
4. Evaluation
- 基准:TabArena(包含 100 多个公开表格数据集)和 TALENT(大规模、百万行表格)。
- 指标:标准回归指标(RMSE、R²)和分类指标(accuracy、F1),以及推理延迟和 GPU 内存占用。
Results & Findings
| 基准 | 指标(数值越高越好) | TabICLv2 | RealTabPFN‑2.5(已调优) |
|---|---|---|---|
| TabArena(平均) | 准确率 / R² | +3.2 % 超过基线 | – |
| TALENT(百万行) | 推理时间(秒) | 0.42 s 每 1 万行 | 1.18 s |
| Memory(GPU) | 峰值使用量 | ≈ 45 GB | ≈ 70 GB |
- 未进行超参数调优:TabICLv2 开箱即用的性能已超越调优后的 RealTabPFN‑2.5,展示了合成预训练多样性的强大优势。
- 可扩展性:全新的注意力机制使模型能够在单个 GPU 上处理 > 1 M 行 的表格,而之前的表格基础模型要么崩溃,要么需要多 GPU 设置。
- 消融实验 证实,每个支柱(合成引擎、注意力微调、Muon 优化器)都对最终得分贡献了可测量的提升(约 1–2 %)。
实际意义
- 快速原型开发:数据科学家可以在笔记本中直接引入 TabICLv2,提供少量标记行,即可获得高质量预测,无需在特征工程或模型选择上花费时间。
- 边缘友好部署:由于推理仅占用 50 GB GPU 内存且延迟在亚秒级,模型可以在 SaaS 平台、内部机器学习 API,甚至高端消费级 GPU 上提供服务。
- 成本效益的扩展:处理海量日志、物联网遥测或点击流数据的公司现在可以使用单一的预训练模型,而无需为每个数据集训练独立的梯度提升树。
- 开源生态系统:随着代码和权重的发布,社区可以将合成生成器扩展到特定领域的模式(如金融、医疗),并针对细分监管约束微调 TabICLv2。
限制与未来工作
- Synthetic‑real gap:虽然合成引擎具有多样性,但某些特定领域的细节(例如,时间序列自相关、层次化类别编码)仍可能表现不足,从而限制模型在高度专业化表格上的性能。
- Interpretability:与大多数基于 transformer 的模型一样,TabICLv2 相比传统树模型在特征重要性方面提供的洞察有限;在受监管行业中,集成事后可解释性工具将是必需的。
- Training compute:虽然推理成本低廉,但预训练阶段仍需数个 GPU‑day;未来的工作可以探索更好的优化器或 curriculum‑learning 技巧以降低该成本。
- Extension to multimodal tables:当前设计假设列类型同质;将架构扩展至处理嵌入图像、自由文本或图结构列仍是一个开放的研究方向。
Bottom line:TabICLv2 证明了一个精心设计的合成预训练流水线结合巧妙的架构改进,能够提供一个“即插即用”的表格模型,性能可与高度工程化的基线相媲美——为整个行业实现更快、更具可扩展性的数据科学工作流打开了大门。
作者
- Jingang Qu
- David Holzmüller
- Gaël Varoquaux
- Marine Le Morvan
论文信息
- arXiv ID: 2602.11139v1
- 分类: cs.LG
- 出版日期: 2026年2月11日
- PDF: 下载 PDF