[Paper] SteuerLLM：本地专用大型语言模型用于德国税法分析

发布: 3天前 (2026年2月12日 GMT+8 01:46)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.11081v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。）

概述

本文介绍了 SteuerLLM，一款拥有 280 亿参数的大型语言模型，专门针对德国税法进行了微调。为了评估该模型，作者还发布了 SteuerEx，这是首个基于真实德国大学税法考试构建的开放基准，配备了部分得分评分方案，模拟学生实际的评分方式。研究表明，经过领域适配的 LLM 能在法律严谨的任务上超越规模更大的通用模型，凸显了专业数据相较于单纯模型规模的重要性。

关键贡献

SteuerEx 基准 – 115 道经专家验证的考试题目，涵盖六个核心税法主题，采用基于陈述级别的部分得分评估，反映真实的评分方式。
合成训练流水线 – 一种受控的检索增强生成过程，将真实考试材料转化为大规模、高质量的合成数据集，同时保留法律术语和引用格式。
SteuerLLM 模型 – 一个拥有 28 B 参数的语言模型，经过在合成税法语料上微调；在 SteuerEx 基准上始终优于同等规模的指令微调模型，甚至超过更大的通用模型。
开放科学发布 – 所有基准数据、训练语料、模型权重和评估脚本均公开可获取，并提供实时网页演示以进行交互式测试。

方法论

Benchmark construction
- 收集了过去的德国大学税法考试试卷。
- 选取了 115 道题目，涵盖所得税、公司税、增值税、遗产税、营业税和国际税。
- 将每道题目拆分为单独的陈述；专家为每个陈述分配 0–1 的部分得分，以反映学术界使用的细致评分方式。
Synthetic data generation
- 使用检索增强管道：先由基础 LLM 检索相关法规和往年考试解答，然后生成模仿原始考试风格和引用严谨度的新问答对。
- 应用了严格的后处理过滤（例如，正确的引用格式、数值一致性），以确保法律的忠实性。
Model fine‑tuning
- 以一个强大的德语 LLM（28 B 参数）为起点。
- 在合成税法语料库上进行指令跟随目标的训练（答案生成、引用抽取、数值推理）。
- 使用 LoRA adapters 来保持计算需求可控，同时实现快速实验。
Evaluation
- 在 SteuerEx 上运行所有模型，使用部分得分指标对每个陈述进行评分。
- 与多个基线模型进行比较：一个通用指令微调的 28 B 模型、一个 70 B 的通用 LLM，以及一个较小的领域特定模型。

结果与发现

模型	平均部分得分 (0‑1)	相对增益 vs. Generic 28 B
Generic 28 B（指令微调）	0.48	–
70 B 通用 LLM	0.51	+6 %
SteuerLLM (28 B)	0.66	+38 %
小型领域特定模型（7 B）	0.58	+21 %

SteuerLLM 在参数更少的情况下仍然超越了更大的 70 B 模型，证实了领域特定数据对法律推理的重要性高于单纯的规模。
该模型在 法条引用准确性（↑ 45 % 正确引用）和 数值精度（错误率 ↓ 30 %）方面表现出显著提升。
人类评估者指出，SteuerLLM 的解释遵循税法推理所需的结构化论证风格，而通用模型往往缺失此类特点。

实际意义

法律科技初创公司 可以将 SteuerLLM（或类似的领域适配模型）嵌入税务咨询聊天机器人，从而减少对常规查询进行昂贵人工审查的需求。
企业税务部门 可以自动生成税务申报的初稿、法条引用或内部合规备忘录，让会计师专注于高价值的分析工作。
检索增强的合成数据流水线 为其他受监管领域（例如 GDPR、财务报告）提供了可复现的方案，这些领域往往缺乏标注数据。
由于模型以开源许可证发布，开发者可以进一步微调模型，以适配公司特定的法规、地区差异，或与现有文档管理系统集成。

限制与未来工作

Synthetic bias: 尽管生成流水线强制遵守法律形式，但它仍可能传播基础大语言模型中的细微偏见，导致对模糊法规的偶尔误解。
Scope: SteuerEx 只覆盖大学层面的考试；而实际税务咨询通常涉及更复杂的、多司法管辖区的情形，这些并未在测试中覆盖。
Explainability: 模型能够生成合理的引用，但未提供审计员可审查的透明推理轨迹。
Future directions 作者建议包括：将基准扩展至覆盖企业层面的税务申报，整合外部法律数据库以实现实时检索，并探索链式思考提示以提升可解释性。

作者

Sebastian Wind
Jeta Sopa
Laurin Schmid
Quirin Jackl
Sebastian Kiefer
Fei Wu
Martin Mayr
Harald Köstler
Gerhard Wellein
Andreas Maier
Soroosh Tayebi Arasteh

论文信息

arXiv ID: 2602.11081v1
分类: cs.CL, cs.AI, cs.LG
出版日期: 2026年2月11日
PDF: Download PDF

[Paper] SteuerLLM：本地专用大型语言模型用于德国税法分析

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] T3D：通过轨迹自蒸馏与直接判别优化实现少步 Diffusion 语言模型

[Paper] “抱歉，我没听清”：语音模型如何错过最重要的内容

[Paper] Moonshine v2：Ergodic Streaming Encoder ASR 用于对延迟敏感的语音应用

【论文】Olmix：在语言模型开发全过程中的数据混合框架