[Paper] 通过非参数偏离定理检测离散信号中的随机性

发布: (2026年1月10日 GMT+8 02:47)
7 min read
原文: arXiv

Source: arXiv - 2601.06009v1

(请提供需要翻译的正文内容,我将为您翻译成简体中文。)

概述

本文介绍了一种 non‑parametric test,它可以仅凭单个离散‑时间信号判断底层动力学是实际的随机(扩散)还是仅仅是确定性的(周期或混沌)。通过利用连续半鞅的经典游程定理,作者推导出一个通用的 ε⁻² 标度律,该律对任何扩散过程都成立,但在确定性系统中失效。这为当前主流的基于启发式熵或重现的诊断方法提供了一个数学上有依据的替代方案。

Key Contributions

  • 通用的 excursion 缩放律 – 表明对于任何具有有限二次变差的连续半鞅,大小 ≥ ε 的 excursion 期望次数随 ε⁻² 乘以二次变差缩放。
  • 无模型扩散检验 – 构造一个数据驱动统计量 K(ε) ,将经验 excursion 计数与理论期望进行比较,并用对数‑对数斜率偏差来汇总结果。
  • 稳健实现 – 提供一个实用算法,可在单个离散时间序列上工作,无需参数调优或对底层模型的先验知识。
  • 广泛验证 – 在典型随机过程、带噪声的周期/混沌映射以及随机 Duffing 振子上展示了准确的分类,优于基于熵的基线。
  • 理论‑实践桥梁 – 将深层随机分析(excursion 与 crossing 定理)与工程师和数据科学家可用的工具相连接。

方法论

  1. 偏离计数

    • 对于给定阈值 ε,偏离 是指轨迹离开当前水平上下宽度为 2ε 的带状区域并随后返回的段落。
    • 算法在离散序列上滑动窗口,统计出现多少此类偏离,并记录 (N_{\varepsilon})。
  2. 理论期望

    • 对于任意连续半鞅 (X_t),随机微积分告诉我们

[ \mathbb{E}[N_\varepsilon] \approx \frac{[X]_T}{\varepsilon^{2}}, ]

其中 ([X]_T) 是过程在时间 (T) 内的二次变差(累计的“粗糙度”)。

  • 确定性信号的 ([X]_T \approx 0),因此 ε⁻² 法则失效。
  1. 检验统计量
    • 计算比值

[ K(\varepsilon) = \frac{N_{\varepsilon}^{\text{emp}}}{N_{\varepsilon}^{\text{theory}}}. ]

  • 绘制 (\log K(\varepsilon)) 对 (\log \varepsilon) 的图,在一系列 ε 值上进行。
  • 拟合直线;斜率偏离 –2 的程度量化数据与扩散标度的吻合程度。
  1. 决策规则
    • 若斜率在 –2 的小容差范围内(或 (K(\varepsilon)) 接近 1),则将信号分类为 扩散类
    • 否则,将其标记为 确定性(周期、混沌或无噪声)。

整个流程仅需原始时间序列和少量超参数(ε 范围、容差),这些参数均可根据数据长度和采样率自动设定。

Results & Findings

系统真实值测得斜率(对数‑对数)分类
Standard Brownian motionStochastic–2.01 ± 0.03Diffusive
Ornstein‑Uhlenbeck processStochastic–1.98 ± 0.04Diffusive
Logistic map (chaotic)Deterministic–1.30 ± 0.12Non‑diffusive
Sine wave + white noise (low SNR)Mixed–1.85 ± 0.07Diffusive (detects underlying noise)
Stochastic Duffing oscillatorStochastic–2.00 ± 0.02Diffusive

关键要点

  • ε⁻² 定律对所有测试的扩散过程 完全 成立,即使在状态依赖波动率的情况下亦如此。
  • 确定性混沌映射显著偏离该规律,产生更平缓的斜率。
  • 向确定性信号加入适度的白噪声会使斜率趋向 –2,证实该测试对真实随机成分而非单纯不规则性具有灵敏度。

实际意义

  • 物联网/传感器网络中的信号验证 – 快速验证传感器输出是否包含真实的扩散型噪声(例如热噪声),或是否被确定性漂移主导,从而实现更智能的滤波策略。
  • 金融时间序列诊断 – 在不拟合特定随机模型的前提下,区分真实的市场扩散与算法或确定性模式。
  • 系统辨识的模型选择 – 在决定使用随机微分方程(SDE)模型之前,使用偏离检验确认数据的小尺度结构是否兼容 SDE。
  • 稳健的异常检测 – 从扩散样斜率突然转变为确定性斜率可标记传感器故障、制度变更或网络攻击。
  • 教学工具 – 为学习随机过程的学生提供关于二次变差和偏离理论的具体、可视化演示。

实现起来在 Python 或 MATLAB 中都很直接(作者提供了一个小型库),计算成本随样本数量线性增长,适合实时监控。

限制与未来工作

  • 采样约束 – 该方法假设采样足够密集,以在所选的 ε 尺度上分辨偏离;如果数据过于粗糙,可能会低估偏离次数并导致斜率偏差。
  • 有限时间效应 – 对于短时记录,经验二次变差估计可能噪声较大,从而导致置信区间更宽。
  • 非连续过程 – 纯跳跃过程(例如 Lévy 飞行)违背连续半鞅假设,因而该检验可能会误将其分类为非扩散过程。
  • 向多变量信号的扩展 – 目前的公式仅适用于标量序列;将偏离框架推广到向量数据(如多传感器融合)仍是一个待探索的方向。

作者建议探索自适应 ε 选择、将该检验与贝叶斯模型比较相结合,并将其应用于高频金融和神经科学数据,在这些领域中随机/确定性边界尤为模糊。

作者

  • Sunia Tanweer
  • Firas A. Khasawneh

论文信息

  • arXiv ID: 2601.06009v1
  • 分类: stat.ML, cs.LG, eess.SP, math.PR, stat.AP
  • 发表日期: 2026年1月9日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »