[Paper] STReasoner:通过空间感知强化学习赋能LLMs在时间序列中的时空推理
发布: (2026年1月7日 GMT+8 02:46)
7 min read
原文: arXiv
Source: arXiv - 2601.03248v1
(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)
概述
本文提出了 STReasoner,一个新颖的框架,使大语言模型(LLMs)具备对时空数据进行推理的能力——例如交通流量、电网测量或疫情曲线——通过联合处理时间序列信号、图结构的空间关系以及自然语言上下文。为了评估这种能力,作者还发布了 ST‑Bench,一个涵盖四个核心推理任务的基准,并展示了他们的方法在显著超越现有方法的同时,仅消耗专有模型的一小部分计算资源。
关键贡献
- ST‑Bench:一个公开发布的基准,包含四项时空推理任务(病因推理、实体识别、关联推理、上下文预测),通过随机微分方程(SDE)多代理模拟器生成。
- STReasoner 架构:一个即插即用的流水线,将原始时间序列、图邻接信息和文本提示融合为统一的 LLM 输入格式。
- S‑GRPO(空间引导强化策略优化):一种基于强化学习的训练循环,明确奖励源于空间线索的改进,鼓励模型将其推理基于底层网络拓扑。
- 效率提升:在基准任务上实现了 17 %–135 % 的准确率提升,同时仅使用领先闭源 LLM 推理成本的 0.004×。
- 真实世界验证:展示了从合成 ST‑Bench 数据到公开的交通和电网数据集的稳健迁移,无需额外微调。
方法论
- 数据合成 – 作者构建了一个多代理模拟器,每个代理遵循一个随机微分方程(SDE),该方程决定其随时间的演化。代理被放置在表示空间连通性的图上(例如道路网络、输电线路)。通过调节交互参数,他们为四个基准任务生成了多样化的场景。
- 输入编码 – 对于每个推理实例,三种模态被拼接成一个单一提示:
- 时间序列片段(例如最近的传感器读数)使用简单的量化方案进行标记化。
- 图上下文 以边列表文本形式表达(“节点 A → 节点 B(权重 = 0.8)”)。
- 自然语言查询 描述推理目标(例如“哪个传感器最有可能下一次故障?”)。
- 大语言模型骨干 – 使用标准的仅解码器 LLM(例如 LLaMA‑7B)作为基础模型。
- 空间感知强化学习(S‑GRPO) – 在合成数据上进行监督预训练后,模型通过强化学习循环进行微调:
- 奖励被分解为 空间组件(当存在空间边时答案的提升程度)和 任务组件(整体正确性)。
- 策略梯度推动模型生成明确利用空间信息的答案,降低对虚假文本模式的依赖。
- 评估 – 在所有任务上报告准确率、F1 分数以及新提出的 “空间利用率得分”(在空间边被打乱时答案变化的正确答案比例)。
Results & Findings
| Task | Baseline (LLM‑only) | STReasoner (S‑GRPO) | Relative Gain |
|---|---|---|---|
| Etiological reasoning | 58 % | 84 % | +44 % |
| Entity identification | 62 % | 91 % | +47 % |
| Correlation reasoning | 55 % | 73 % | +33 % |
| In‑context forecasting | 61 % | 78 % | +28 % |
- Spatial‑utilization score jumps from ~12 % (baseline) to >70 % after S‑GRPO, confirming that the model is truly grounding its logic in the graph.
- Compute efficiency: Inference latency and GPU memory are ~0.4 % of what is required for comparable proprietary models (e.g., GPT‑4).
- Real‑world transfer: When tested on a city‑wide traffic dataset, STReasoner retains a 15 %–20 % accuracy edge over the baseline, despite being trained only on synthetic data.
实际意义
- Smart‑city services – 开发者可以将 STReasoner 接入交通管理仪表盘,以回答“为什么该路口的拥堵在上升?”或在传感器故障发生前进行预测。
- Power‑grid monitoring – 运营商可以查询模型,对电压异常进行根本原因分析,利用 SCADA 时间序列和电网拓扑。
- Epidemiology tools – 公共卫生平台可以询问“根据当前病例数和流动性链接,哪个地区下周可能出现激增?”而无需构建自定义模拟。
- Cost‑effective AI – 由于该方法可使用体积适中的开源 LLM,初创公司和研究实验室能够部署时空推理,而无需支付昂贵的 API 调用费用。
- Extensible pipeline – ST‑Bench 数据生成器是开源的,允许团队创建特定领域的合成场景(例如供应链物流),并对相同架构进行微调。
限制与未来工作
- Synthetic‑to‑real gap: 虽然迁移实验显示出前景,但在转向高度噪声、非平稳的真实数据时性能仍会下降;可能需要额外的领域适应。
- Graph size scalability: 当前基于提示的图编码在节点数超过10 k的网络中变得笨重;未来工作可以探索层次化图摘要或检索增强方法。
- Interpretability: 虽然 S‑GRPO 鼓励空间落地,但模型内部的推理步骤仍不透明;整合 chain‑of‑thought 提示或显式推理模块可能提升透明度。
- Multi‑modal extensions: 将卫星影像或视频流与时间序列结合,可进一步丰富对灾害响应等应用的推理。
总体而言,STReasoner 为开发者提供了一条实用路径,使其能够将大型语言模型用作“时空分析师”,将原始传感器流和网络图转化为可操作的洞察,且计算开销极小。
作者
- Juntong Ni
- Shiyu Wang
- Ming Jin
- Qi He
- Wei Jin
论文信息
- arXiv ID: 2601.03248v1
- Categories: cs.CL
- Published: 2026年1月6日
- PDF: 下载 PDF