[Paper] Vichara: 上诉判决预测与解释(针对印度司法体系)

发布: (2026年2月21日 GMT+8 00:57)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.18346v1

概览

本文介绍了 Vichara,这是一种全新的 AI 驱动框架,能够 预测印度上诉案件的结果 并以律师熟悉的格式 解释其推理过程。通过将案件文档拆解为细粒度的“决策点”,并利用大型语言模型(LLMs)对其进行推理,Vichara 将判决预测的准确率提升至超越现有基准,同时提供人类可读的解释。

关键贡献

  • Decision‑point decomposition: 将原始上诉程序转换为结构化单元(issue, authority, outcome, reasoning, temporal context)。
  • IRAC‑style explanations: 生成遵循 Issue‑Rule‑Application‑Conclusion 模板的解释,针对印度法学进行定制。
  • Multi‑model evaluation: 在两个精选数据集(PredEx, ILDC_expert)上对四种大语言模型(GPT‑4o mini, Llama‑3.1‑8B, Mistral‑7B, Qwen2.5‑7B)进行基准测试。
  • State‑of‑the‑art performance: GPT‑4o mini 在 PredEx 上取得 81.5 的 F1 分数,在 ILDC_expert 上取得 80.3,超越了先前的判决预测基线。
  • Human‑centric evaluation: 在 Clarity, Linking, and Usefulness 三个维度评估解释质量,显示 GPT‑4o mini 的解释最具可解释性。

方法论

  1. 文档摄取 – Vichara 阅读英文上诉案件文件(法院命令、记录等)。
  2. 决策点提取 – 基于规则 + 神经网络的流水线识别离散的法律裁定,每个裁定标记有:
    • 法律问题(正在决定的事项)
    • 决定机构(哪位法官或合议庭)
    • 结果(维持、推翻、修改)
    • 推理摘录(关键理由)
    • 时间上下文(提出该点的时间)
  3. 提示构建 – 对每个决策点,构建一个将结构化数据输入大型语言模型的提示。该提示明确要求模型:
    • 预测上诉结果(二分类或多分类)。
    • 生成 IRAC(问题‑规则‑适用‑结论)结构的解释。
  4. 模型集成 – 对相同提示运行四个大型语言模型;结果在定量上(F1、准确率)和定性上(人工评分解释)进行比较。
  5. 评估数据集
    • PredEx:公开可用的上诉判决预测基准。
    • ILDC_expert:印度法律文档语料库的一个子集,由法律专家手动标注决策点和结果。

结果与发现

ModelDatasetF1 ScoreAvg. Explanation Rating*
GPT‑4o miniPredEx81.54.6 / 5
GPT‑4o miniILDC_expert80.34.5 / 5
Llama‑3.1‑8BPredEx78.24.1 / 5
Llama‑3.1‑8BILDC_expert77.04.0 / 5
Mistral‑7BPredEx73.43.7 / 5
Qwen2.5‑7BPredEx71.93.5 / 5

*评分为对“清晰度、关联性(解释与决策点的契合程度)和实用性(对律师的实际价值)”三项的平均值。

要点

  • 结构化的决策点表示方式显著提升了预测的准确性,相比直接向 LLM 输入原始文本效果更佳。
  • IRAC 风格的解释不仅是“看似合理的文字”,其在法律相关性和透明度方面的评分始终更高。
  • 即使是 8 B 参数的 Llama‑3.1 也能与 GPT‑4o mini 相近竞争,这表明该框架可以适配开源模型,以满足成本敏感的部署需求。

实际意义

  • Case triage for courts – Judges and clerks can use Vichara to flag high‑probability reversals early, helping prioritize backlog reduction.
  • Legal research assistants – Law firms can integrate Vichara into document‑review pipelines to auto‑summarize appellate decisions and surface the reasoning behind likely outcomes.
  • Training junior lawyers – The IRAC‑style explanations serve as teaching material, illustrating how appellate courts structure their judgments.
  • Policy analytics – Government bodies can aggregate prediction trends to identify systemic patterns (e.g., over‑reliance on certain precedents).
  • Open‑source feasibility – Because the framework works with models as small as 7‑8 B parameters, smaller firms can deploy a cost‑effective, on‑premise version without relying on proprietary APIs.

限制与未来工作

  • 语言范围 – Vichara 目前仅处理英文文档;许多印度判决使用地区语言,这限制了覆盖范围。
  • 数据集偏差 – 评估数据集偏向高级法院的判决;对下级法院上诉的性能尚未测试。
  • 可解释性深度 – 虽然 IRAC 解释结构化,但尚未提供对具体法条或先例段落的引用,而这通常是律师所需。
  • 未来方向 – 作者们提出将流水线扩展到多语言输入,用法律引用丰富解释,并探索少样本微调以将模型适配到细分领域(例如税法或知识产权上诉法)。

作者

  • Pavithra PM Nair
  • Preethu Rose Anish

论文信息

  • arXiv ID: 2602.18346v1
  • 类别: cs.CL, cs.AI
  • 发布: 2026年2月20日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »