[Paper] Vichara: 上诉判决预测与解释(针对印度司法体系)
发布: (2026年2月21日 GMT+8 00:57)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.18346v1
概览
本文介绍了 Vichara,这是一种全新的 AI 驱动框架,能够 预测印度上诉案件的结果 并以律师熟悉的格式 解释其推理过程。通过将案件文档拆解为细粒度的“决策点”,并利用大型语言模型(LLMs)对其进行推理,Vichara 将判决预测的准确率提升至超越现有基准,同时提供人类可读的解释。
关键贡献
- Decision‑point decomposition: 将原始上诉程序转换为结构化单元(issue, authority, outcome, reasoning, temporal context)。
- IRAC‑style explanations: 生成遵循 Issue‑Rule‑Application‑Conclusion 模板的解释,针对印度法学进行定制。
- Multi‑model evaluation: 在两个精选数据集(PredEx, ILDC_expert)上对四种大语言模型(GPT‑4o mini, Llama‑3.1‑8B, Mistral‑7B, Qwen2.5‑7B)进行基准测试。
- State‑of‑the‑art performance: GPT‑4o mini 在 PredEx 上取得 81.5 的 F1 分数,在 ILDC_expert 上取得 80.3,超越了先前的判决预测基线。
- Human‑centric evaluation: 在 Clarity, Linking, and Usefulness 三个维度评估解释质量,显示 GPT‑4o mini 的解释最具可解释性。
方法论
- 文档摄取 – Vichara 阅读英文上诉案件文件(法院命令、记录等)。
- 决策点提取 – 基于规则 + 神经网络的流水线识别离散的法律裁定,每个裁定标记有:
- 法律问题(正在决定的事项)
- 决定机构(哪位法官或合议庭)
- 结果(维持、推翻、修改)
- 推理摘录(关键理由)
- 时间上下文(提出该点的时间)
- 提示构建 – 对每个决策点,构建一个将结构化数据输入大型语言模型的提示。该提示明确要求模型:
- 预测上诉结果(二分类或多分类)。
- 生成 IRAC(问题‑规则‑适用‑结论)结构的解释。
- 模型集成 – 对相同提示运行四个大型语言模型;结果在定量上(F1、准确率)和定性上(人工评分解释)进行比较。
- 评估数据集 –
- PredEx:公开可用的上诉判决预测基准。
- ILDC_expert:印度法律文档语料库的一个子集,由法律专家手动标注决策点和结果。
结果与发现
| Model | Dataset | F1 Score | Avg. Explanation Rating* |
|---|---|---|---|
| GPT‑4o mini | PredEx | 81.5 | 4.6 / 5 |
| GPT‑4o mini | ILDC_expert | 80.3 | 4.5 / 5 |
| Llama‑3.1‑8B | PredEx | 78.2 | 4.1 / 5 |
| Llama‑3.1‑8B | ILDC_expert | 77.0 | 4.0 / 5 |
| Mistral‑7B | PredEx | 73.4 | 3.7 / 5 |
| Qwen2.5‑7B | PredEx | 71.9 | 3.5 / 5 |
*评分为对“清晰度、关联性(解释与决策点的契合程度)和实用性(对律师的实际价值)”三项的平均值。
要点
- 结构化的决策点表示方式显著提升了预测的准确性,相比直接向 LLM 输入原始文本效果更佳。
- IRAC 风格的解释不仅是“看似合理的文字”,其在法律相关性和透明度方面的评分始终更高。
- 即使是 8 B 参数的 Llama‑3.1 也能与 GPT‑4o mini 相近竞争,这表明该框架可以适配开源模型,以满足成本敏感的部署需求。
实际意义
- Case triage for courts – Judges and clerks can use Vichara to flag high‑probability reversals early, helping prioritize backlog reduction.
- Legal research assistants – Law firms can integrate Vichara into document‑review pipelines to auto‑summarize appellate decisions and surface the reasoning behind likely outcomes.
- Training junior lawyers – The IRAC‑style explanations serve as teaching material, illustrating how appellate courts structure their judgments.
- Policy analytics – Government bodies can aggregate prediction trends to identify systemic patterns (e.g., over‑reliance on certain precedents).
- Open‑source feasibility – Because the framework works with models as small as 7‑8 B parameters, smaller firms can deploy a cost‑effective, on‑premise version without relying on proprietary APIs.
限制与未来工作
- 语言范围 – Vichara 目前仅处理英文文档;许多印度判决使用地区语言,这限制了覆盖范围。
- 数据集偏差 – 评估数据集偏向高级法院的判决;对下级法院上诉的性能尚未测试。
- 可解释性深度 – 虽然 IRAC 解释结构化,但尚未提供对具体法条或先例段落的引用,而这通常是律师所需。
- 未来方向 – 作者们提出将流水线扩展到多语言输入,用法律引用丰富解释,并探索少样本微调以将模型适配到细分领域(例如税法或知识产权上诉法)。
作者
- Pavithra PM Nair
- Preethu Rose Anish
论文信息
- arXiv ID: 2602.18346v1
- 类别: cs.CL, cs.AI
- 发布: 2026年2月20日
- PDF: 下载 PDF