[Paper] SteuerLLM:本地专用大型语言模型用于德国税法分析

发布: (2026年2月12日 GMT+8 01:46)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.11081v1

(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)

概述

本文介绍了 SteuerLLM,一款拥有 280 亿参数的大型语言模型,专门针对德国税法进行了微调。为了评估该模型,作者还发布了 SteuerEx,这是首个基于真实德国大学税法考试构建的开放基准,配备了部分得分评分方案,模拟学生实际的评分方式。研究表明,经过领域适配的 LLM 能在法律严谨的任务上超越规模更大的通用模型,凸显了专业数据相较于单纯模型规模的重要性。

关键贡献

  • SteuerEx 基准 – 115 道经专家验证的考试题目,涵盖六个核心税法主题,采用基于陈述级别的部分得分评估,反映真实的评分方式。
  • 合成训练流水线 – 一种受控的检索增强生成过程,将真实考试材料转化为大规模、高质量的合成数据集,同时保留法律术语和引用格式。
  • SteuerLLM 模型 – 一个拥有 28 B 参数的语言模型,经过在合成税法语料上微调;在 SteuerEx 基准上始终优于同等规模的指令微调模型,甚至超过更大的通用模型。
  • 开放科学发布 – 所有基准数据、训练语料、模型权重和评估脚本均公开可获取,并提供实时网页演示以进行交互式测试。

方法论

  1. Benchmark construction

    • 收集了过去的德国大学税法考试试卷。
    • 选取了 115 道题目,涵盖所得税、公司税、增值税、遗产税、营业税和国际税。
    • 将每道题目拆分为单独的陈述;专家为每个陈述分配 0–1 的部分得分,以反映学术界使用的细致评分方式。
  2. Synthetic data generation

    • 使用检索增强管道:先由基础 LLM 检索相关法规和往年考试解答,然后生成模仿原始考试风格和引用严谨度的新问答对。
    • 应用了严格的后处理过滤(例如,正确的引用格式、数值一致性),以确保法律的忠实性。
  3. Model fine‑tuning

    • 以一个强大的德语 LLM(28 B 参数)为起点。
    • 在合成税法语料库上进行指令跟随目标的训练(答案生成、引用抽取、数值推理)。
    • 使用 LoRA adapters 来保持计算需求可控,同时实现快速实验。
  4. Evaluation

    • 在 SteuerEx 上运行所有模型,使用部分得分指标对每个陈述进行评分。
    • 与多个基线模型进行比较:一个通用指令微调的 28 B 模型、一个 70 B 的通用 LLM,以及一个较小的领域特定模型。

结果与发现

模型平均部分得分 (0‑1)相对增益 vs. Generic 28 B
Generic 28 B(指令微调)0.48
70 B 通用 LLM0.51+6 %
SteuerLLM (28 B)0.66+38 %
小型领域特定模型(7 B)0.58+21 %
  • SteuerLLM 在参数更少的情况下仍然超越了更大的 70 B 模型,证实了领域特定数据对法律推理的重要性高于单纯的规模。
  • 该模型在 法条引用准确性(↑ 45 % 正确引用)和 数值精度(错误率 ↓ 30 %)方面表现出显著提升。
  • 人类评估者指出,SteuerLLM 的解释遵循税法推理所需的结构化论证风格,而通用模型往往缺失此类特点。

实际意义

  • 法律科技初创公司 可以将 SteuerLLM(或类似的领域适配模型)嵌入税务咨询聊天机器人,从而减少对常规查询进行昂贵人工审查的需求。
  • 企业税务部门 可以自动生成税务申报的初稿、法条引用或内部合规备忘录,让会计师专注于高价值的分析工作。
  • 检索增强的合成数据流水线 为其他受监管领域(例如 GDPR、财务报告)提供了可复现的方案,这些领域往往缺乏标注数据。
  • 由于模型以开源许可证发布,开发者可以进一步微调模型,以适配公司特定的法规、地区差异,或与现有文档管理系统集成。

限制与未来工作

  • Synthetic bias: 尽管生成流水线强制遵守法律形式,但它仍可能传播基础大语言模型中的细微偏见,导致对模糊法规的偶尔误解。
  • Scope: SteuerEx 只覆盖大学层面的考试;而实际税务咨询通常涉及更复杂的、多司法管辖区的情形,这些并未在测试中覆盖。
  • Explainability: 模型能够生成合理的引用,但未提供审计员可审查的透明推理轨迹。
  • Future directions 作者建议包括:将基准扩展至覆盖企业层面的税务申报,整合外部法律数据库以实现实时检索,并探索链式思考提示以提升可解释性。

作者

  • Sebastian Wind
  • Jeta Sopa
  • Laurin Schmid
  • Quirin Jackl
  • Sebastian Kiefer
  • Fei Wu
  • Martin Mayr
  • Harald Köstler
  • Gerhard Wellein
  • Andreas Maier
  • Soroosh Tayebi Arasteh

论文信息

  • arXiv ID: 2602.11081v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 出版日期: 2026年2月11日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »