[Paper] STReasoner：通过空间感知强化学习赋能LLMs在时间序列中的时空推理

发布: 1个月前 (2026年1月7日 GMT+8 02:46)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.03248v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。）

概述

本文提出了 STReasoner，一个新颖的框架，使大语言模型（LLMs）具备对时空数据进行推理的能力——例如交通流量、电网测量或疫情曲线——通过联合处理时间序列信号、图结构的空间关系以及自然语言上下文。为了评估这种能力，作者还发布了 ST‑Bench，一个涵盖四个核心推理任务的基准，并展示了他们的方法在显著超越现有方法的同时，仅消耗专有模型的一小部分计算资源。

关键贡献

ST‑Bench：一个公开发布的基准，包含四项时空推理任务（病因推理、实体识别、关联推理、上下文预测），通过随机微分方程（SDE）多代理模拟器生成。
STReasoner 架构：一个即插即用的流水线，将原始时间序列、图邻接信息和文本提示融合为统一的 LLM 输入格式。
S‑GRPO（空间引导强化策略优化）：一种基于强化学习的训练循环，明确奖励源于空间线索的改进，鼓励模型将其推理基于底层网络拓扑。
效率提升：在基准任务上实现了 17 %–135 % 的准确率提升，同时仅使用领先闭源 LLM 推理成本的 0.004×。
真实世界验证：展示了从合成 ST‑Bench 数据到公开的交通和电网数据集的稳健迁移，无需额外微调。

方法论

数据合成 – 作者构建了一个多代理模拟器，每个代理遵循一个随机微分方程（SDE），该方程决定其随时间的演化。代理被放置在表示空间连通性的图上（例如道路网络、输电线路）。通过调节交互参数，他们为四个基准任务生成了多样化的场景。
输入编码 – 对于每个推理实例，三种模态被拼接成一个单一提示：
- 时间序列片段（例如最近的传感器读数）使用简单的量化方案进行标记化。
- 图上下文 以边列表文本形式表达（“节点 A → 节点 B（权重 = 0.8）”）。
- 自然语言查询 描述推理目标（例如“哪个传感器最有可能下一次故障？”）。
大语言模型骨干 – 使用标准的仅解码器 LLM（例如 LLaMA‑7B）作为基础模型。
空间感知强化学习（S‑GRPO） – 在合成数据上进行监督预训练后，模型通过强化学习循环进行微调：
- 奖励被分解为 空间组件（当存在空间边时答案的提升程度）和 任务组件（整体正确性）。
- 策略梯度推动模型生成明确利用空间信息的答案，降低对虚假文本模式的依赖。
评估 – 在所有任务上报告准确率、F1 分数以及新提出的 “空间利用率得分”（在空间边被打乱时答案变化的正确答案比例）。

Results & Findings

Task	Baseline (LLM‑only)	STReasoner (S‑GRPO)	Relative Gain
Etiological reasoning	58 %	84 %	+44 %
Entity identification	62 %	91 %	+47 %
Correlation reasoning	55 %	73 %	+33 %
In‑context forecasting	61 %	78 %	+28 %

Spatial‑utilization score jumps from ~12 % (baseline) to >70 % after S‑GRPO, confirming that the model is truly grounding its logic in the graph.
Compute efficiency: Inference latency and GPU memory are ~0.4 % of what is required for comparable proprietary models (e.g., GPT‑4).
Real‑world transfer: When tested on a city‑wide traffic dataset, STReasoner retains a 15 %–20 % accuracy edge over the baseline, despite being trained only on synthetic data.

实际意义

Smart‑city services – 开发者可以将 STReasoner 接入交通管理仪表盘，以回答“为什么该路口的拥堵在上升？”或在传感器故障发生前进行预测。
Power‑grid monitoring – 运营商可以查询模型，对电压异常进行根本原因分析，利用 SCADA 时间序列和电网拓扑。
Epidemiology tools – 公共卫生平台可以询问“根据当前病例数和流动性链接，哪个地区下周可能出现激增？”而无需构建自定义模拟。
Cost‑effective AI – 由于该方法可使用体积适中的开源 LLM，初创公司和研究实验室能够部署时空推理，而无需支付昂贵的 API 调用费用。
Extensible pipeline – ST‑Bench 数据生成器是开源的，允许团队创建特定领域的合成场景（例如供应链物流），并对相同架构进行微调。

限制与未来工作

Synthetic‑to‑real gap: 虽然迁移实验显示出前景，但在转向高度噪声、非平稳的真实数据时性能仍会下降；可能需要额外的领域适应。
Graph size scalability: 当前基于提示的图编码在节点数超过10 k的网络中变得笨重；未来工作可以探索层次化图摘要或检索增强方法。
Interpretability: 虽然 S‑GRPO 鼓励空间落地，但模型内部的推理步骤仍不透明；整合 chain‑of‑thought 提示或显式推理模块可能提升透明度。
Multi‑modal extensions: 将卫星影像或视频流与时间序列结合，可进一步丰富对灾害响应等应用的推理。

总体而言，STReasoner 为开发者提供了一条实用路径，使其能够将大型语言模型用作“时空分析师”，将原始传感器流和网络图转化为可操作的洞察，且计算开销极小。

作者

Juntong Ni
Shiyu Wang
Ming Jin
Qi He
Wei Jin

论文信息

arXiv ID: 2601.03248v1
Categories: cs.CL
Published: 2026年1月6日
PDF: 下载 PDF

[Paper] STReasoner：通过空间感知强化学习赋能LLMs在时间序列中的时空推理

概述

关键贡献

方法论

Results & Findings

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] 链接证据：面向深度搜索代理的鲁棒强化学习与引用感知评分奖励

[Paper] 不要破坏缓存：对 Prompt Caching 在长时程 Agentic 任务的评估

[Paper] 思维的分子结构：绘制长Chain-of-Thought推理的拓扑