[Paper] 高维数据处理:在本地和分布式环境中对 Machine Learning 与 Deep Learning 架构进行 Benchmarking

发布: (2025年12月11日 GMT+8 14:02)
6 min read
原文: arXiv

Source: arXiv - 2512.10312v1

概览

本文记录了对机器学习(ML)和深度学习(DL)流水线在高维数据上的实操探索,数据范围从数值基准(Epsilon 数据集)到真实世界的文本和多媒体语料。通过对比 本地(单节点)和 分布式(Apache Spark)环境,作者揭示了开发者在扩展分析工作负载时面临的权衡。

关键贡献

  • 端到端基准套件,覆盖经典 ML(线性模型、基于树的方法)和现代 DL(前馈网络)在高维 Epsilon 数据集上的表现。
  • 性能对比分析,比较本地(CPU/GPU)与基于 Spark 的分布式执行在训练和推理阶段的差异。
  • 实际案例研究
    • 使用 RestMex 语料库(西班牙语评论)的文本分类。
    • 在 IMDb 电影数据集上进行特征提取与推荐建模。
  • 实用指南,提供在 Linux 上使用 Scala 部署 Spark 集群的步骤,包括数据导入、模型序列化和作业调度脚本。
  • 开源成果(数据集、笔记本和 Spark 作业),在宽松许可证下发布,以便复现。

方法论

  1. 数据集准备

    • Epsilon:400 K 样本 × 2 000 特征,使用标准化处理。
    • RestMex:抓取的餐厅评论,已分词并转化为 TF‑IDF 向量。
    • IMDb:提取剧情简介、演员表和评分;通过词嵌入和独热编码进行编码。
  2. 模型组合

    • ML:逻辑回归、支持向量机、随机森林、梯度提升。
    • DL:使用 ReLU 激活的多层感知机(MLP)、用于文本的浅层 CNN,以及用于电影的混合 MLP‑嵌入模型。
  3. 执行环境

    • 本地:Python(scikit‑learn、TensorFlow)运行在配备 32 GB RAM、8 核 CPU 的工作站上,可选 NVIDIA GPU。
    • 分布式:Spark 3.x 集群(3 个工作节点,每节点 8 vCPU、32 GB RAM),使用 Spark MLlib 和通过 TensorFlowOnSpark 集成的 Spark‑TensorFlow。
  4. 评估指标

    • 训练时间、峰值内存使用以及模型准确率/F1‑score。
    • 通过改变 Spark executor 数量和数据分区来衡量可扩展性。
  5. 可复现性

    • 所有实验均以 Bash/Scala 笔记本脚本化;本地栈提供 Docker 镜像;集群搭建使用 Ansible Playbook。

结果与发现

任务最佳本地模型最佳分布式模型加速比(分布式 vs. 本地)
Epsilon 分类(准确率)梯度提升 (0.93)Spark‑ML 梯度提升 (0.92)4.2×(训练)
RestMex 情感分析(F1)CNN (0.88)TensorFlowOnSpark CNN (0.87)3.7×
IMDb 推荐(RMSE)MLP (0.71)Spark‑ML MLP (0.72)5.1×
  • 训练时间 在分布式环境下显著下降,尤其是 400 K × 2 000 特征矩阵,Spark 的数据并行优势尤为突出。
  • 模型质量 与本地基线相差仅 1–2 %,证明 Spark 的近似算法(如基于直方图的划分)不会显著削弱预测能力。
  • 内存占用 每节点保持在可用 RAM 的 70 % 以下,表明流水线能够在不耗尽资源的前提下扩展。

实际意义

  • 对数据工程师:Spark‑centric 脚本提供了即插即用的模板,可快速搭建容错的高维表格数据流水线,省去数周的样板代码编写。
  • 对机器学习从业者:基准显示可以安全地将重训练任务迁移到普通规模的 Spark 集群,而不会损失精度,从而释放本地 GPU 用于实验或在线服务。
  • 对产品团队:真实案例(餐厅情感、电影推荐)展示了如何将文本与元数据流水线集成到可在 Kubernetes 上通过 Spark‑operator 部署的微服务中。
  • 成本效益洞察:作者估算,使用 Spot 实例的 Spark 工作节点相较于持续运行的 GPU 工作站,可降低约 30 % 的总体计算成本,适用于大批量作业。

局限性与未来工作

  • 数据集规模:实验止步于约 400 K 行;若扩展至数亿记录,可能会出现新的瓶颈(shuffle 开销、driver 内存)。
  • 模型多样性:仅测试了浅层 DL 架构;未来可对基于 Transformer 的模型(BERT、GPT)在 Spark 上进行基准评测。
  • 延迟关注:研究侧重批量训练速度;Spark Structured Streaming 上的实时推理延迟尚未评估。
  • 硬件异构:所有节点均为同构 CPU;探索 CPU‑GPU 混合集群或能进一步加速 DL 工作负载。

结论:本文为需要在单机或 Spark 集群之间抉择的开发者提供了实用、可复现的路线图。显著的性能提升以及模型质量的最小损失,为企业级 AI 流水线的分布式训练提供了有力的论据。

作者

  • Julian Rodriguez
  • Piotr Lopez
  • Emiliano Lerma
  • Rafael Medrano
  • Jacobo Hernandez

论文信息

  • arXiv ID: 2512.10312v1
  • 分类: cs.DC, cs.AI
  • 发表时间: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »