[Paper] 使用短随机块对长法律文档进行分类

发布: 1个月前 (2026年1月1日 GMT+8 01:48)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.24997v1

概述

法律文档分类极其困难：文本体积庞大、领域特定，并且常常超出现代 Transformer 模型的 token 限制。在本文中，Luis Adrián Cabrera‑Diego 提出了一种轻量但强大的流水线，通过仅向模型输入 48 random short chunks（每块 ≤ 128 个 token），从每个文档中抽取，以对长法律文件进行分类。该方法将 DeBERTa v3 编码器与 LSTM 聚合器相结合，展示了高准确率，同时保持推理成本足够低，能够在仅 CPU 部署。

关键贡献

Random‑Chunk Sampling: 引入一种简单策略，每个文档随机选择 48 段 128‑token 的摘录， sidestepping 对完整文档进行编码的需求。
Hybrid Architecture: 将最先进的 DeBERTa v3 编码器（用于 chunk‑level 表示）与轻量级 LSTM 结合，将 chunk 嵌入融合为文档级预测。
Production‑Ready Pipeline: 在 Temporal（持久化执行平台）上实现端到端工作流，确保可靠、容错的批处理。
Performance Benchmark: 在真实法律语料库上实现加权 F‑score 为 0.898，单个文件的中位处理时间约为 ~5 秒（≈ 498 秒处理 100 文件），使用单核 CPU。

方法论

块提取 – 对于每个法律文件，均匀随机抽取 48 个不重叠的窗口，每个窗口最多 128 个 token。这样可将输入大小控制在 DeBERTa v3 的 512‑token 限制之内，并降低内存压力。
块编码 – 将每个块送入预训练的 DeBERTa v3 模型（已在分类任务上微调）。模型输出固定大小的嵌入向量（通常为 CLS token）。
序列聚合 – 这 48 个嵌入向量构成一个短序列，输入单层 LSTM。LSTM 学习捕捉块间依赖，并产生用于分类的最终隐藏状态。
训练方案 – 系统端到端训练，使用交叉熵损失，并采用标准数据增强（每个 epoch 使用不同随机种子），使模型对随机块选择具有鲁棒性。
通过 Temporal 部署 – 推理任务被包装为 Temporal 工作流，负责重试、扩展和状态持久化，使流水线能够在普通 CPU 机器上运行，无需 GPU 加速。

结果与发现

指标	数值
加权 F‑score	0.898
中位推理时间（100 个文件，CPU）	498 s
每文件处理的标记数（平均）	48 × ≤ 128 ≈ 6 k 标记

随机块（random‑chunk）方法即使仅看到约 5 % 的典型 120 k 标记法律文档，仍能保留大部分判别信号。
LSTM 聚合器始终优于简单的平均或最大池化块嵌入，表明无序聚合会丢失有用的上下文。
仅使用 CPU 的推理在批量工作负载下可行，消除了许多法律技术场景中昂贵 GPU 基础设施的需求。

实际影响

可扩展的法律科技服务： 公司现在可以在无需配置昂贵 GPU 集群的情况下，提供文档分流、路由或合规检查。
快速原型开发： 随机块方法与模型无关；开发者可以将 DeBERTa 替换为任何其他编码器（例如 RoBERTa、LLaMA），并保持相同的流水线框架。
成本效益高的云部署： 在 CPU 上运行可显著降低云费用——尤其是可以在非高峰时段调度的批处理任务。
稳健的生产环境： Temporal 的工作流引擎提供内置的重试、超时和审计功能，使系统能够抵御不稳定的数据源或瞬时硬件故障。
隐私友好的处理： 由于仅加载小段文本到内存，该方法可与本地块提取相结合，以最小化数据暴露。

限制与未来工作

抽样偏差： 随机块可能会遗漏稀有但决定性的章节（例如特定条款），从而可能限制在高度异质语料库上的性能。
固定块数： 选择 48 块是经验性的；基于文档长度或置信度的自适应策略可能实现更高效率。
领域迁移： 模型在特定法律数据集上进行微调；将其应用于其他司法辖区或文档类型可能需要额外的标注数据。
可解释性： 通过 LSTM 聚合大量块嵌入会使得难以精确定位哪些文档部分导致了特定分类——未来工作可以集成基于注意力的聚合器或事后可解释性工具。

总体而言，本文展示了巧妙的抽样结合适度的神经网络架构，能够让高质量的法律文档分类对日常开发团队触手可及，打开了更易获取的 AI 驱动法律工作流的大门。

作者

Luis Adrián Cabrera-Diego

论文信息

arXiv ID: 2512.24997v1
分类: cs.CL, cs.AI
发表时间: 2025年12月31日
PDF: Download PDF

[Paper] 使用短随机块对长法律文档进行分类

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 理性几何：有效数学推理的谱特征

[Paper] 用于大语言模型持续适应的 Memory Bank Compression

[Paper] 探索大语言模型在主观跨度识别任务上的性能

[Paper] TeleDoCTR：面向电信的领域特定与上下文故障排除