[Paper] 高维数据处理：在本地和分布式环境中对 Machine Learning 与 Deep Learning 架构进行 Benchmarking

发布: 1个月前 (2025年12月11日 GMT+8 14:02)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.10312v1

概览

本文记录了对机器学习（ML）和深度学习（DL）流水线在高维数据上的实操探索，数据范围从数值基准（Epsilon 数据集）到真实世界的文本和多媒体语料。通过对比本地（单节点）和 分布式（Apache Spark）环境，作者揭示了开发者在扩展分析工作负载时面临的权衡。

数据集准备
- Epsilon：400 K 样本 × 2 000 特征，使用标准化处理。
- RestMex：抓取的餐厅评论，已分词并转化为 TF‑IDF 向量。
- IMDb：提取剧情简介、演员表和评分；通过词嵌入和独热编码进行编码。
模型组合
- ML：逻辑回归、支持向量机、随机森林、梯度提升。
- DL：使用 ReLU 激活的多层感知机（MLP）、用于文本的浅层 CNN，以及用于电影的混合 MLP‑嵌入模型。
执行环境
- 本地：Python（scikit‑learn、TensorFlow）运行在配备 32 GB RAM、8 核 CPU 的工作站上，可选 NVIDIA GPU。
- 分布式：Spark 3.x 集群（3 个工作节点，每节点 8 vCPU、32 GB RAM），使用 Spark MLlib 和通过 TensorFlowOnSpark 集成的 Spark‑TensorFlow。
评估指标
- 训练时间、峰值内存使用以及模型准确率/F1‑score。
- 通过改变 Spark executor 数量和数据分区来衡量可扩展性。
可复现性
- 所有实验均以 Bash/Scala 笔记本脚本化；本地栈提供 Docker 镜像；集群搭建使用 Ansible Playbook。

任务	最佳本地模型	最佳分布式模型	加速比（分布式 vs. 本地）
Epsilon 分类（准确率）	梯度提升 (0.93)	Spark‑ML 梯度提升 (0.92)	4.2×（训练）
RestMex 情感分析（F1）	CNN (0.88)	TensorFlowOnSpark CNN (0.87)	3.7×
IMDb 推荐（RMSE）	MLP (0.71)	Spark‑ML MLP (0.72)	5.1×

对数据工程师：Spark‑centric 脚本提供了即插即用的模板，可快速搭建容错的高维表格数据流水线，省去数周的样板代码编写。
对机器学习从业者：基准显示可以安全地将重训练任务迁移到普通规模的 Spark 集群，而不会损失精度，从而释放本地 GPU 用于实验或在线服务。
对产品团队：真实案例（餐厅情感、电影推荐）展示了如何将文本与元数据流水线集成到可在 Kubernetes 上通过 Spark‑operator 部署的微服务中。
成本效益洞察：作者估算，使用 Spot 实例的 Spark 工作节点相较于持续运行的 GPU 工作站，可降低约 30 % 的总体计算成本，适用于大批量作业。

结论：本文为需要在单机或 Spark 集群之间抉择的开发者提供了实用、可复现的路线图。显著的性能提升以及模型质量的最小损失，为企业级 AI 流水线的分布式训练提供了有力的论据。