[Paper] gridfm-datakit-v1:一个用于可扩展和真实的 Power Flow 与 Optimal Power Flow 数据生成的 Python 库
发布: (2025年12月17日 GMT+8 02:17)
7 min read
原文: arXiv
Source: arXiv - 2512.14658v1
概述
本文介绍了 gridfm‑datakit‑v1,一个开源的 Python 库,能够自动生成大规模、真实的潮流(Power Flow,PF)和最优潮流(Optimal Power Flow,OPF)数据集。通过解决现有数据生成器中长期存在的三个缺口,作者使机器学习研究者和电力系统工程师能够在真正反映现实电网变动性和约束的数据上训练和基准测试基于机器学习的求解器。
关键贡献
- 统一的随机负荷建模 – 将真实的负荷曲线缩放与局部随机噪声相结合,生成多样且物理上合理的需求模式。
- 任意 N‑k 拓扑扰动 – 支持随机线路停运或重新配置,用户可以在无需手工构造案例的情况下探索应急情景。
- 超限潮流样本 – 故意生成违反电压或热限的潮流状态,帮助机器学习模型学习检测并纠正不可行的运行点。
- 可变发电机成本函数 – 创建包含随机抽样成本曲线的 OPF 实例,提高模型在不同市场条件下的泛化能力。
- 可扩展到超大网络 – 已在规模达 10 k 节点的测试系统上演示,且仅需适度的计算资源。
- 易于集成 – 通过 PyPI 分发 (
pip install gridfm-datakit) 并在宽松的 Apache 2.0 许可证下发布;API 与熟悉的 Pandas/NumPy 模式保持一致。
方法论
-
负荷与概况生成
- 从基准负荷向量开始(例如,来自电力公司的 24 小时负荷曲线)。
- 应用一个 全局缩放因子,该因子从反映日/季节需求波动的分布中抽取。
- 为每条母线添加 局部扰动(高斯或均匀噪声),以捕捉随机消费特性。
-
拓扑随机化
- 用户指定 N‑k 预算(例如 “最多移除 3 条线路”)。
- 库随机选择要断开的线路,确保生成的网络保持连通(或在进行应急研究时有意创建孤岛)。
-
潮流求解
- 对每一组负荷‑拓扑配对,使用标准的 Newton‑Raphson 潮流求解器(通过
pandapower/PYPOWER)计算电压、潮流和损耗。 - 若解违反约束,仍保留该样本(这与大多数数据集在出现此类情况时直接舍弃的做法不同)。
- 对每一组负荷‑拓扑配对,使用标准的 Newton‑Raphson 潮流求解器(通过
-
OPF 实例创建
- 发电机成本系数(二次、一次、常数项)从用户定义的范围中抽样。
- 使用内点算法求解 OPF 问题;同时保存最优调度结果及其对应的对偶变量。
-
数据打包
- 将结果导出为轻量级的 HDF5/Parquet 文件,并附带元数据(随机种子、缩放因子、拓扑变化等)。
- 提供一个小型辅助类(
DataKitLoader),可直接将批次流式加载到 PyTorch 或 TensorFlow 流水线中。
整个流程通过 Python 的 concurrent.futures 实现并行化,使得在 16 核工作站上,10 k‑母线系统能够在不到一小时的时间内生成数万条样本。
结果与发现
| Test System | #Samples | Avg. Generation Time (s) | % PF Samples Violating Limits |
|---|---|---|---|
| IEEE‑14 | 50 k | 0.12 | 8 % |
| IEEE‑118 | 200 k | 0.45 | 12 % |
| Synthetic 10 k‑bus | 30 k | 3.8 | 15 % |
- 多样性提升:与 OPFData 和 PFΔ 相比,gridfm‑datakit 的数据集在负荷水平上的分布扩大了 2–3 倍,超限状态的出现频率提升了 5–10 倍。
- 训练影响:在新的 PF 数据上训练的简单前馈神经网络在预测电压违规方面达到了 94 % 的准确率,而在传统(仅可行)数据集上训练时仅为 78 %。
- 可扩展性:内存占用随节点数量线性增长;在 10 k‑bus 场景下库的内存使用保持在 8 GB 以下,适合云端批处理作业。
这些数据表明,该库不仅能够生成更丰富的数据,还能为下游机器学习模型带来可衡量的性能提升。
Practical Implications
- ML‑based grid operators 现在可以训练对意外过载具有鲁棒性的求解器,从而在紧急情况下实现更快速的“假设情景”分析。
- Renewable integration studies 受益于真实的随机负荷和拓扑变化,提高了基于情景的规划工具的可信度。
- Market simulation platforms 可以注入动态的发电机成本曲线,使分析师能够在更广泛的经济条件下测试定价算法。
- Software vendors 可以将 gridfm‑datakit 嵌入其测试套件,自动为新的 PF/OPF 求解器生成回归数据集,降低手动数据整理的工作量。
- Educational tools 获得即插即用的多样案例来源,帮助学生在无需构建自定义数据管道的情况下探索应急分析。
限制与未来工作
- 当前实现依赖确定性潮流求解器;尚未支持随机或概率潮流方法。
- 虽然拓扑扰动默认保持连通性,但更复杂的应急模型(例如 N‑k‑m 带孤岛)需用户自行处理。
- 该库侧重于平衡的单相网络;计划扩展到不平衡的三相配电模型。
- 未来版本旨在集成 GPU 加速的潮流求解器,并提供基准套件,能够自动评估机器学习模型在生成数据集上的性能。
作者
- Alban Puech
- Matteo Mazzonelli
- Celia Cintas
- Tamara R. Govindasamy
- Mangaliso Mngomezulu
- Jonas Weiss
- Matteo Baù
- Anna Varbella
- François Mirallès
- Kibaek Kim
- Le Xie
- Hendrik F. Hamann
- Etienne Vos
- Thomas Brunschwiler
论文信息
- arXiv ID: 2512.14658v1
- 分类: cs.LG, cs.AI, eess.SY, math.OC
- 出版日期: 2025年12月16日
- PDF: 下载 PDF