[Paper] 大型语言模型中的事件序列建模时间标记化策略
发布: (2025年12月16日 GMT+8 02:10)
8 min read
原文: arXiv
请提供您希望翻译的完整文本内容(例如摘要、正文或其他段落)。目前仅收到来源链接,缺少需要翻译的实际文字。提供完整文本后,我将按照要求保留源链接并将内容翻译成简体中文。
概览
论文 Temporal Tokenization Strategies for Event Sequence Modeling with Large Language Models 探讨了如何将时间信息最佳地输入到在事件流数据(如日志、传感器读数、用户行为)上微调的 LLM 中。通过系统性地比较五种不同的时间戳转化为 token 的方式,作者表明,“正确”的表示取决于底层时间间隔的统计形态,而不是存在一种适用于所有情况的通用方案。
关键贡献
- 首次大规模实证比较用于基于LLM的序列预测的时间标记化方法。
- 评估了五种不同的编码:
- 朴素数值字符串(例如
"1623456789")。 - 高精度字节级表示(二进制打包标量)。
- 人类语义日历标记(例如
"Mon 09:45")。 - 均匀分箱(固定宽度时间桶)。
- 自适应残差标量量化(动态分箱 + 残差位)。
- 朴素数值字符串(例如
- 数据集套件覆盖多样的时间分布:平滑的对数正态到达间隔、重尾尖峰、周期性日历驱动模式以及混合模态流。
- 针对数据特征匹配标记化的指南,突出在何种情况下基于对数的编码或人类可读标记优于其他方法。
- 开源基准代码和标记器,以实现可重复性和快速实验。
方法论
- 数据准备 – 作者策划了四个真实世界的事件流(电子商务点击日志、物联网传感器警报、系统审计轨迹和基于日历的会议记录)。每个数据集都标注了精确的时间戳,并划分为训练/验证/测试折叠。
- 分词流水线 – 对于五种策略中的每一种,时间戳都被转换为与基础 LLM 词汇表兼容的 token 序列(一个 30‑k token 的 GPT‑NeoX 模型)。
- 数值字符串 直接转换为十进制文本。
- 字节级 使用小端 64‑bit IEEE‑754 浮点数,然后拆分为单个字节。
- 日历 token 将时间戳映射为离散 token,如
"<MON>"、"<09:00>"、"<PM>"。 - 均匀分箱 将时间线划分为等宽区间(例如 5‑分钟箱),并用对应的箱索引替换每个时间戳。
- 自适应残差量化 首先在到达间隔上使用 k‑means 选取粗略箱,然后用小的定点后缀编码残差。
- 微调 – 所有已分词的流都用于微调相同的 LLM 架构(12‑层解码器,768‑维隐藏层),任务为下一个事件预测。训练超参数在各实验中保持不变,以隔离分词方式的影响。
- 评估指标 – 报告了预测准确率(top‑1/5)、负对数似然和校准误差。此外,还测量了 token 级效率(每事件平均 token 数)和推理延迟。
- 统计分析 – 使用配对 bootstrap 检验评估显著性,同时进行相关性分析,将分布偏度/峰度与各编码相对性能关联起来。
结果与发现
| 编码 | 表现最佳的数据集 | 相对于基线的准确率Δ* | 每个事件的标记数 | 推理开销 |
|---|---|---|---|---|
| 数值字符串 | 均匀分箱数据集 | +1.2 % | 12 | negligible |
| 字节级 | 高频IoT突发 | +3.8 % | 9 | +12 ms |
| 日历标记 | 混合模态日历日志 | +2.5 % | 8 | negligible |
| 均匀分箱 | 平滑对数正态日志 | +0.9 % | 6 | fastest |
| Adaptive residual quantization | 重尾尖峰数据 | +5.4 % | 7 | +5 ms |
*基线 = 同一数据集上的朴素数值字符串。
- 没有通用的最佳方案 – Adaptive residual quantization 在高度偏斜、突发的流上表现出色,而人类语义的日历标记在数据包含周期性、人类导向模式时具有鲁棒性。
- 标记效率很重要 – 将时间戳压缩为更少标记的策略(均匀分箱、日历标记)在分布良好的情况下能够降低延迟且不牺牲准确率。
- 与分布对齐 – 简单的统计检查(例如偏度 > 2)可以预测自适应量化何时会优于更简单的方案。
实际意义
- LLM‑powered log analytics – 工程师可以为包含业务时间模式的系统日志换入日历分词器,在不增加额外计算的情况下获得适度的准确率提升。
- Edge‑device forecasting – 对于具有突发传感器峰值的物联网部署,使用字节级或自适应残差编码可以在保持模型规模不变的同时提升预测质量。
- Rapid prototyping – 开源分词器让开发者能够尝试“即插即用”方式:对新事件流进行快速分布分析,然后根据论文的指南选择匹配的编码。
- Cost‑aware inference – 每个事件的 token 数量减少会直接转化为托管 LLM 服务的 API 使用费用降低;当延迟或成本是主要关注点时,统一分箱或日历 token 具有吸引力。
局限性与未来工作
- 模型规模 – 实验仅限于 12 层、770 M 参数的解码器;使用更大、指令微调的 LLM 时结果可能会有所变化。
- 单模态聚焦 – 本研究仅考察了时间戳 + 类别事件负载;未探索多模态流(例如,文本 + 时间)。
- 静态分词器 – 所有编码在预处理后固定;动态、上下文感知的分词(例如,针对时间的学习嵌入)仍是一个待探索的方向。
- 实时适应 – 未来工作可以研究在生产环境中随时间分布漂移而在线调整量化桶。
底线: 在构建 LLM 驱动的事件预测器时,选择正确的时间标记化与模型架构同等重要。通过将编码与数据的时间分布相匹配,开发者可以在准确性、效率和成本方面获得可衡量的提升。
作者
- Zefang Liu
- Nam Nguyen
- Yinzhu Quan
- Austin Zhang
论文信息
- arXiv ID: 2512.13618v1
- Categories: cs.CL, cs.LG
- Published: December 15, 2025
- PDF: 下载 PDF