[Paper] 结构化文档翻译通过格式强化学习

发布: 2个月前 (2025年12月5日 GMT+8 02:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.05100v1

概览

本文提出了 Format Reinforcement Learning (FormatRL)，一种在保持层次布局的前提下翻译 XML、HTML 等结构化文档的新方法。通过将标准的微调翻译模型与直接优化结构感知奖励的强化学习（RL）层相结合，作者在真实的软件文档基准上实现了更高保真度的翻译。

FormatRL 框架：在监督翻译模型之上集成 Group Relative Policy Optimization (GRPO)，联合优化翻译质量和结构正确性。
新颖奖励：
1. TreeSim – 一种比较预测 XML/HTML 树与参考树的相似度度量，奖励正确的嵌套和标签放置。
2. Node‑chrF – 在每个 XML 节点上计算的字符级 F‑score，鼓励标签内部文本内容的准确翻译。
StrucAUC 指标：一种细粒度评估，能够区分轻微的格式错误和灾难性的结构失效，为模型行为提供更清晰的洞察。
实证验证：在 SAP 软件文档数据集上进行的大量实验表明，在包括传统翻译分数（BLEU、chrF）和新结构感知分数在内的六项评估指标上均实现了持续提升。
消融分析：展示了每个奖励组件对结构完整性与语言质量提升的贡献。

基础模型 – 首先在平行结构化文档数据（源 XML ↔ 目标 XML）上对标准的序列到序列 Transformer 进行微调。
强化层 – 将微调后的模型作为 RL 循环中的 “策略”。不再仅最大化似然，而是使用 Group Relative Policy Optimization (GRPO) 对策略进行更新，这是一种在稀疏、高方差奖励下表现稳健的策略梯度算法。
奖励设计：
- TreeSim 计算预测 XML 树与参考 XML 树之间的树编辑距离，并归一化为相似度得分（数值越高越好）。
- Node‑chrF 评估每个 XML 节点内部的翻译质量，然后在文档层面上进行聚合。
- 最终奖励为 TreeSim 与 Node‑chrF 的加权和，使系统能够在结构保真度和语言准确性之间取得平衡。
训练循环 – 每个批次后，模型采样一组候选翻译，用组合奖励对其打分，并使用 GRPO 更新策略。监督损失仍作为正则项保留，以保持模型的基础能力。

该方法刻意保持模块化：任何已有的翻译模型都可以 “插拔”，奖励函数也可以针对其他标记语言（如 JSON、Markdown）进行替换或扩展。

指标	基线（监督）	FormatRL	Δ
BLEU	38.2	40.5	+2.3
chrF	57.1	59.8	+2.7
TreeSim	0.71	0.84	+0.13
Node‑chrF	0.68	0.81	+0.13
StrucAUC（小错误）	0.62	0.78	+0.16
StrucAUC（重大失效）	0.91	0.97	+0.06

结构提升：TreeSim 与 StrucAUC 的提升表明 FormatRL 大幅减少了标签层级破损和节点错位。
翻译质量：BLEU 与 chrF 同时上升，说明 RL 微调并未牺牲语言忠实度。
消融实验：若去除 TreeSim 奖励，结构分数回落至基线水平；仅保留 Node‑chrF 可提升 BLEU，却仍留下大量标签错误。这验证了两种奖励的必要性。

总体而言，模型生成的翻译既可读又 结构良好——这对下游消费结构化数据的应用至关重要。

软件文档流水线：企业可以自动本地化 API 文档、用户手册或帮助中心文章，无需人工后处理来修复破损的 XML/HTML。
内容管理系统（CMS）：FormatRL 可作为插件集成，用于在保持布局的前提下翻译网页，降低多语言站点的 QA 工作量。
数据驱动的 UI 生成：渲染基于标记的 UI（如 React JSX、Vue 模板）的前端框架可以安全地使用翻译后的组件，避免因标签错误导致的运行时渲染问题。
合规监管：在文档结构承载法律语义的领域（如 XML 格式的合同），保持层次结构是强制要求；FormatRL 为可信的机器翻译提供了路径。
开发者工具：奖励函数（TreeSim、Node‑chrF）已开源，可复用于评估任何处理标记的翻译系统，提供比单纯 BLEU 更有意义的基准。

通过解决上述问题，社区有望实现真正通用、结构感知的机器翻译，适用于当代标记丰富内容的全谱生态。