[Paper] 通过电信视角:所有训练样本都重要吗?
发布: (2025年11月27日 GMT+8 02:44)
5 min read
原文: arXiv
Source: arXiv - 2511.21668v1
Overview
本文 Through the telecom lens: Are all training samples important? 检视了大多数电信 AI 流水线中的一个隐藏假设:训练集中的每个数据点对模型性能的贡献是相等的。通过剖析单个样本的影响,作者展示了电信运营商如何在保持精度不变的前提下降低存储、计算和能源成本——这是实现更可持续、可投产 AI 的重要一步。
Key Contributions
- 跨训练周期的样本级梯度分析,揭示哪些电信记录真正驱动了学习。
- 基于重要性的数据选择框架,自动优先保留高影响样本,剔除冗余或噪声样本。
- 在三个真实电信数据集上的实证验证(RAN 优化、QoE 预测和网络故障检测),展示了最高 30 % 的训练数据削减 与 25 % 的计算/能耗降低,且精度无可测量的下降。
- 开源工具,用于基于梯度的重要性打分,可直接接入现有的 PyTorch/TensorFlow 流水线。
Methodology
- 基于梯度的影响打分 – 对每个训练样本,作者计算其在每个 epoch 对损失的梯度范数。范数越大,说明对模型参数的“推动”越强。
- 时间模式挖掘 – 通过随时间追踪这些分数,识别出三类原型:
- 持续影响(核心学习信号)
- 短暂影响(早期有用,随后冗余)
- 从不影响(噪声或标签错误)。
- 动态子抽样 – 在聚合分数上设定简单阈值,在每个 epoch 前对训练集进行裁剪,仅保留前 k% 最具影响力的样本。
- 可持续性指标 – 测量 FLOPs、GPU 功耗和实际运行时间,以量化计算节省。
该流水线轻量(梯度范数已在反向传播时计算),可随时开关,无需重新设计模型结构。
Results & Findings
| Dataset | Baseline Accuracy | Pruned Accuracy | Data Reduction | Compute/Energy Savings |
|---|---|---|---|---|
| RAN KPI prediction | 92.1 % | 91.9 % | 28 % | 24 % |
| QoE rating | 88.4 % | 88.2 % | 32 % | 27 % |
| Fault detection | 95.6 % | 95.5 % | 30 % | 25 % |
- 性能持平:整体精度下降 <0.3 %。
- 训练加速:每个 epoch 的时间缩短约四分之一,直接转化为更低的电费和更快的模型迭代周期。
- 对噪声的鲁棒性:该框架自动过滤标签错误或异常记录,提高了模型在噪声电信日志上的稳定性。
Practical Implications
- 成本效益的模型更新:运营商可以更频繁(如每日夜间)重新训练模型,而不会导致计算预算激增,从而实现对网络变化的近实时适应。
- 边缘部署:更小的训练足迹意味着轻量模型可以在边缘服务器甚至设备上微调,为本地化 AI(如 5G 基站)打开了大门。
- 可持续 AI 合规:降低 FLOPs 符合电信企业日益严格的 ESG(环境、社会、治理)报告标准。
- 简化数据流水线:通过自动标记低影响样本,数据工程师可以减少手动清洗的时间,专注于收集真正新颖的测量(新天线类型、频谱带等)。
Limitations & Future Work
- 阈值敏感性:当前的 top‑k% 选择启发式可能需要针对每个数据集进行调优;自适应、基于学习的阈值可能更为稳健。
- 模型通用性:实验仅局限于前馈网络和 LSTM 架构;将分析扩展到基于 Transformer 的电信模型(如流量预测)仍有待探索。
- 实时流式处理:本研究假设训练集是静态的;将重要性打分集成到持续学习流水线(在线更新)是一个有前景的后续方向。
总体而言,本文为电信 AI 团队提供了一套实用、低开销的方案,使模型更轻量、更绿色、更快速——而不牺牲现代网络所需的性能。
Authors
- Shruti Bothe
- Illyyne Saffar
- Aurelie Boisbunon
- Hasan Farooq
- Julien Forgeat
- Md Moin Uddin Chowdhury
Paper Information
- arXiv ID: 2511.21668v1
- Categories: cs.LG, cs.AI
- Published: November 26, 2025
- PDF: Download PDF