[Paper] 通过电信视角：所有训练样本都重要吗？

发布: 2个月前 (2025年11月27日 GMT+8 02:44)

5 分钟阅读

原文: arXiv

Source: arXiv - 2511.21668v1

Overview

本文 Through the telecom lens: Are all training samples important? 检视了大多数电信 AI 流水线中的一个隐藏假设：训练集中的每个数据点对模型性能的贡献是相等的。通过剖析单个样本的影响，作者展示了电信运营商如何在保持精度不变的前提下降低存储、计算和能源成本——这是实现更可持续、可投产 AI 的重要一步。

Key Contributions

跨训练周期的样本级梯度分析，揭示哪些电信记录真正驱动了学习。
基于重要性的数据选择框架，自动优先保留高影响样本，剔除冗余或噪声样本。
在三个真实电信数据集上的实证验证（RAN 优化、QoE 预测和网络故障检测），展示了最高 30 % 的训练数据削减 与 25 % 的计算/能耗降低，且精度无可测量的下降。
开源工具，用于基于梯度的重要性打分，可直接接入现有的 PyTorch/TensorFlow 流水线。

Methodology

基于梯度的影响打分 – 对每个训练样本，作者计算其在每个 epoch 对损失的梯度范数。范数越大，说明对模型参数的“推动”越强。
时间模式挖掘 – 通过随时间追踪这些分数，识别出三类原型：
- 持续影响（核心学习信号）
- 短暂影响（早期有用，随后冗余）
- 从不影响（噪声或标签错误）。
动态子抽样 – 在聚合分数上设定简单阈值，在每个 epoch 前对训练集进行裁剪，仅保留前 k% 最具影响力的样本。
可持续性指标 – 测量 FLOPs、GPU 功耗和实际运行时间，以量化计算节省。

该流水线轻量（梯度范数已在反向传播时计算），可随时开关，无需重新设计模型结构。

Results & Findings

Dataset	Baseline Accuracy	Pruned Accuracy	Data Reduction	Compute/Energy Savings
RAN KPI prediction	92.1 %	91.9 %	28 %	24 %
QoE rating	88.4 %	88.2 %	32 %	27 %
Fault detection	95.6 %	95.5 %	30 %	25 %

性能持平：整体精度下降 <0.3 %。
训练加速：每个 epoch 的时间缩短约四分之一，直接转化为更低的电费和更快的模型迭代周期。
对噪声的鲁棒性：该框架自动过滤标签错误或异常记录，提高了模型在噪声电信日志上的稳定性。

Practical Implications

成本效益的模型更新：运营商可以更频繁（如每日夜间）重新训练模型，而不会导致计算预算激增，从而实现对网络变化的近实时适应。
边缘部署：更小的训练足迹意味着轻量模型可以在边缘服务器甚至设备上微调，为本地化 AI（如 5G 基站）打开了大门。
可持续 AI 合规：降低 FLOPs 符合电信企业日益严格的 ESG（环境、社会、治理）报告标准。
简化数据流水线：通过自动标记低影响样本，数据工程师可以减少手动清洗的时间，专注于收集真正新颖的测量（新天线类型、频谱带等）。

Limitations & Future Work

阈值敏感性：当前的 top‑k% 选择启发式可能需要针对每个数据集进行调优；自适应、基于学习的阈值可能更为稳健。
模型通用性：实验仅局限于前馈网络和 LSTM 架构；将分析扩展到基于 Transformer 的电信模型（如流量预测）仍有待探索。
实时流式处理：本研究假设训练集是静态的；将重要性打分集成到持续学习流水线（在线更新）是一个有前景的后续方向。

总体而言，本文为电信 AI 团队提供了一套实用、低开销的方案，使模型更轻量、更绿色、更快速——而不牺牲现代网络所需的性能。

Authors

Shruti Bothe
Illyyne Saffar
Aurelie Boisbunon
Hasan Farooq
Julien Forgeat
Md Moin Uddin Chowdhury

Paper Information

arXiv ID: 2511.21668v1
Categories: cs.LG, cs.AI
Published: November 26, 2025
PDF: Download PDF

[Paper] 通过电信视角：所有训练样本都重要吗？

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

[Paper] 思考即行动：通过多轮交互在 LLM 中构建高效的 World Model 推理

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] 进步的代价：算法效率与 AI 推理成本下降

[Paper] Physics-Informed Neural Networks 用于热物性属性检索