[Paper] SteuerLLM:本地专用大型语言模型用于德国税法分析
发布: (2026年2月12日 GMT+8 01:46)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.11081v1
(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)
概述
本文介绍了 SteuerLLM,一款拥有 280 亿参数的大型语言模型,专门针对德国税法进行了微调。为了评估该模型,作者还发布了 SteuerEx,这是首个基于真实德国大学税法考试构建的开放基准,配备了部分得分评分方案,模拟学生实际的评分方式。研究表明,经过领域适配的 LLM 能在法律严谨的任务上超越规模更大的通用模型,凸显了专业数据相较于单纯模型规模的重要性。
关键贡献
- SteuerEx 基准 – 115 道经专家验证的考试题目,涵盖六个核心税法主题,采用基于陈述级别的部分得分评估,反映真实的评分方式。
- 合成训练流水线 – 一种受控的检索增强生成过程,将真实考试材料转化为大规模、高质量的合成数据集,同时保留法律术语和引用格式。
- SteuerLLM 模型 – 一个拥有 28 B 参数的语言模型,经过在合成税法语料上微调;在 SteuerEx 基准上始终优于同等规模的指令微调模型,甚至超过更大的通用模型。
- 开放科学发布 – 所有基准数据、训练语料、模型权重和评估脚本均公开可获取,并提供实时网页演示以进行交互式测试。
方法论
-
Benchmark construction
- 收集了过去的德国大学税法考试试卷。
- 选取了 115 道题目,涵盖所得税、公司税、增值税、遗产税、营业税和国际税。
- 将每道题目拆分为单独的陈述;专家为每个陈述分配 0–1 的部分得分,以反映学术界使用的细致评分方式。
-
Synthetic data generation
- 使用检索增强管道:先由基础 LLM 检索相关法规和往年考试解答,然后生成模仿原始考试风格和引用严谨度的新问答对。
- 应用了严格的后处理过滤(例如,正确的引用格式、数值一致性),以确保法律的忠实性。
-
Model fine‑tuning
- 以一个强大的德语 LLM(28 B 参数)为起点。
- 在合成税法语料库上进行指令跟随目标的训练(答案生成、引用抽取、数值推理)。
- 使用 LoRA adapters 来保持计算需求可控,同时实现快速实验。
-
Evaluation
- 在 SteuerEx 上运行所有模型,使用部分得分指标对每个陈述进行评分。
- 与多个基线模型进行比较:一个通用指令微调的 28 B 模型、一个 70 B 的通用 LLM,以及一个较小的领域特定模型。
结果与发现
| 模型 | 平均部分得分 (0‑1) | 相对增益 vs. Generic 28 B |
|---|---|---|
| Generic 28 B(指令微调) | 0.48 | – |
| 70 B 通用 LLM | 0.51 | +6 % |
| SteuerLLM (28 B) | 0.66 | +38 % |
| 小型领域特定模型(7 B) | 0.58 | +21 % |
- SteuerLLM 在参数更少的情况下仍然超越了更大的 70 B 模型,证实了领域特定数据对法律推理的重要性高于单纯的规模。
- 该模型在 法条引用准确性(↑ 45 % 正确引用)和 数值精度(错误率 ↓ 30 %)方面表现出显著提升。
- 人类评估者指出,SteuerLLM 的解释遵循税法推理所需的结构化论证风格,而通用模型往往缺失此类特点。
实际意义
- 法律科技初创公司 可以将 SteuerLLM(或类似的领域适配模型)嵌入税务咨询聊天机器人,从而减少对常规查询进行昂贵人工审查的需求。
- 企业税务部门 可以自动生成税务申报的初稿、法条引用或内部合规备忘录,让会计师专注于高价值的分析工作。
- 检索增强的合成数据流水线 为其他受监管领域(例如 GDPR、财务报告)提供了可复现的方案,这些领域往往缺乏标注数据。
- 由于模型以开源许可证发布,开发者可以进一步微调模型,以适配公司特定的法规、地区差异,或与现有文档管理系统集成。
限制与未来工作
- Synthetic bias: 尽管生成流水线强制遵守法律形式,但它仍可能传播基础大语言模型中的细微偏见,导致对模糊法规的偶尔误解。
- Scope: SteuerEx 只覆盖大学层面的考试;而实际税务咨询通常涉及更复杂的、多司法管辖区的情形,这些并未在测试中覆盖。
- Explainability: 模型能够生成合理的引用,但未提供审计员可审查的透明推理轨迹。
- Future directions 作者建议包括:将基准扩展至覆盖企业层面的税务申报,整合外部法律数据库以实现实时检索,并探索链式思考提示以提升可解释性。
作者
- Sebastian Wind
- Jeta Sopa
- Laurin Schmid
- Quirin Jackl
- Sebastian Kiefer
- Fei Wu
- Martin Mayr
- Harald Köstler
- Gerhard Wellein
- Andreas Maier
- Soroosh Tayebi Arasteh
论文信息
- arXiv ID: 2602.11081v1
- 分类: cs.CL, cs.AI, cs.LG
- 出版日期: 2026年2月11日
- PDF: Download PDF