[Paper] 可解释的法规预测:基于注意力模型和 LLM Prompting

发布: (2025年12月26日 GMT+8 15:29)
7 min read
原文: arXiv

Source: arXiv - 2512.21902v1

概述

本文探讨 法条预测——即自动为给定的案件描述建议适用的法律条文(章节、子章节或条款)。作者认为,要让 AI 辅助的法律工具获得信任,系统不仅要输出正确的法条,还必须解释每条法条为何相关。为此,他们提出了两种互补的方法:一种基于注意力的模型,适用于中小规模语言模型;另一种是利用大型语言模型(LLM)进行零样本提示的策略。

关键贡献

  • Attention‑over‑Sentences (AoS) 模型:在案件文本上使用句子级注意力对相关法条进行排序,使用监督数据端到端训练。
  • LLM Prompting (LLMPrompt) 框架:为大型模型(如 GPT‑4)设计零样本提示(包括链式思考),用于预测法条并生成自然语言推理。
  • 双重评估流水线:在两个基准法律数据集上与强基线比较法条预测准确率,并通过自动反事实测试和人工评估来衡量解释质量。
  • 可解释性关注:提供人类可读的解释(句子摘录、逻辑步骤),而非不透明的置信度分数。
  • 实证比较:对比轻量监督模型与重量级零样本 LLM,突出在性能、计算成本和可解释性方面的权衡。

方法论

  1. 数据预处理 – 将案件叙述拆分为句子;使用 sentence transformer(例如 SBERT)对每个句子进行嵌入。
  2. AoS 模型
    • 可训练的注意力层为每个句子学习权重,表示其与每个可能法条的相关性。
    • 将加权的句子嵌入聚合后输入分类器,输出多标签预测(一个或多个法条可能适用)。
    • 注意力权重本身即为解释:得分最高的句子被呈现为依据。
  3. LLMPrompt 框架
    • 构建包含案件描述、列出适用法条的简要指令以及自然语言理由请求的提示。
    • 试验两种提示风格:standard(直接提问)和 Chain‑of‑Thought (CoT)(在给出最终答案前进行逐步推理)。
    • 不进行微调;LLM(如 GPT‑4、Claude)在一次前向传播中生成预测和解释。
  4. 评估
    • 法条预测:对金标准法条计算 micro‑averaged F1 和 precision@k。
    • 解释质量
      (a) counter‑factual 测试 – 替换高亮句子并检查预测的法条是否变化;
      (b) 人工评分相关性、完整性和可读性,使用 Likert 量表。

结果与发现

模型法规 F1(数据集 1)法规 F1(数据集 2)平均解释得分(人工)
AoS(sentence‑transformer)0.710.684.1 / 5
LLMPrompt – 标准0.660.643.8 / 5
LLMPrompt – CoT0.680.664.3 / 5
强基线(BERT‑CLS)0.620.603.2 / 5
随机0.120.10
  • AoS 在原始预测准确率上优于所有基线,同时提供透明的句子级解释。
  • CoT 提示 缩小了差距,实现了比标准提示更高的人类评分解释质量,尽管其法规 F1 稍低于 AoS。
  • 反事实测试证实,被标记的句子确实影响模型决策:交换这些句子常常会改变预测的法规。
  • 在计算方面,AoS 只需一块适度的 GPU 用于训练和推理,而 LLMPrompt 则导致更高的延迟和 API 成本,但不需要训练数据。

实际意义

  • Legal AI assistants:开发者可以将 AoS 集成到设备端,实现低延迟的法规建议并内置理由说明,非常适合数据隐私至关重要的内部律所工具。
  • Zero‑shot rapid prototyping:当标注训练数据稀缺时,LLMPrompt 提供即插即用的解决方案——只需构造合适的提示词,让托管的 LLM 完成繁重的工作。
  • Explainability as a product feature:句子级别的注意力图或 CoT 推理可以直接呈现给律师,提升信任并帮助遵守新兴的 AI 透明度法规。
  • Hybrid pipelines:实际系统可以先使用 AoS 进行快速、高精度的预测,在边缘案例或需要生成更丰富叙述性解释时回退到 LLMPrompt。
  • Extensibility:相同的句子级注意力架构可以在最小改动下重新用于其他多标签法律任务(例如问题识别、判例检索)。

限制与未来工作

  • 领域覆盖:实验仅限于两个印度法律语料库;在其他司法管辖区(美国、欧盟)的表现尚未测试。
  • 法条粒度:模型将每部法令视为原子标签,未利用层级关系(例如 法律 → 条款 → 子条款)。
  • 解释深度:虽然可供人类阅读,但解释仍停留在表层(句子摘录或链式思考步骤),可能无法满足严格的法律推理标准。
  • 大模型成本与延迟:零样本提示会产生 API 费用并导致响应时间变慢,这对高吞吐量服务可能构成障碍。
  • 未来方向:作者提出的建议包括:(1) 融入层级标签结构,(2) 在法律语料上微调大模型,以提升准确性和解释可信度,(3) 探索多模态输入(如 PDF、扫描文档),以扩大实际应用范围。

作者

  • Sachin Pawar
  • Girish Keshav Palshikar
  • Anindita Sinha Banerjee
  • Nitin Ramrakhiyani
  • Basit Ali

论文信息

  • arXiv ID: 2512.21902v1
  • 类别: cs.CL
  • 出版时间: 2025年12月26日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »