[Paper] 预训练多语言Transformer揭示人类语言之间的量化距离

发布: 1天前 (2026年3月19日 GMT+8 00:50)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.17912v1

概述

一项新研究表明，大型多语言 Transformer 中的注意力模式可以转化为 衡量人类语言之间距离的量化尺度。通过将注意力图视为概率分布并使用最优传输数学进行比较，作者提出了 “Attention Transport Distance”（ATD），该度量既反映了经典语言学分组，又有助于提升低资源机器翻译的效果。

关键贡献

Attention Transport Distance (ATD)： 一种与分词方式无关的度量，直接从预训练多语言模型的注意力矩阵中推导语言距离。
实证验证： ATD 能复现众所周知的语言家族（例如罗曼语族、斯拉夫语族），并捕捉传统类型学表格遗漏的地理/接触效应。
对机器翻译的实际提升： 在微调过程中将 ATD 作为正则化项，可在低资源翻译对上获得可观的提升。
开源工具包： 作者发布了用于提取注意力、计算 ATD 以及可视化语言距离图的代码，支持可重复研究和快速原型开发。

方法论

模型选择： 作者从公开可用的多语言 Transformers（例如 mBART、mT5）开始，这些模型已经在大规模平行语料上进行过训练。
注意力提取： 对于给定的源‑目标语言对，他们将一组平行句子输入模型，并收集每个头和层的注意力权重矩阵。
分布视角： 将每个注意力矩阵归一化，使其和为 1，转化为对 token 位置的离散概率分布。
最优传输比较： 使用 Wasserstein 距离（亦称 Earth Mover’s Distance）衡量两种语言的注意力分布之间的几何散度。这产生一个标量——ATD，反映模型在两种语言之间翻译时“转移”注意力的程度。
聚合： 将 ATD 分数在头、层和句子批次上取平均，以获得稳定的语言对距离。
评估流程： 将得到的距离矩阵输入聚类和降维工具（例如层次聚类、t‑SNE），与已知语言家族进行比较，并测试下游机器翻译性能。

结果与发现

聚类与类型学一致： ATD 距离的层次聚类几乎完全按照标准语言学文献中的印欧语系、阿非罗-亚细亚语系和南岛语系进行分组。
地理信号： 地理上相近但属于不同语系的语言（例如土耳其语和库尔德语）显示出比同一语系中相距较远的成员更小的 ATD，表明该度量捕捉到了接触导致的趋同。
低资源机器翻译提升： 在微调期间加入基于 ATD 的正则化项，使多个低资源语言对（如斯瓦希里语↔英语、尼泊尔语↔印地语）的 BLEU 分数提升 1.2–2.5 分。
对分词的鲁棒性： 由于 ATD 基于原始注意力矩阵，该度量在不同子词词表之间以及即使语言使用不同脚本时仍保持稳定。

实际意义

更好的语言选择用于迁移学习： 开发者可以使用 ATD 在构建新翻译系统时挑选最“相似”的高资源语言，从而降低昂贵的数据收集需求。
多语言模型的课程设计： ATD 可以指导多语言预训练期间语言曝光的顺序，可能实现更平衡的跨语言表征。
偏差诊断工具： 通过量化模型内部几何结构相对于目标语言的偏离程度，ATD 能标记出可能因质量较差或错误率更高而被低估的语言。
跨语言检索与聚类： ATD 可用于多语言文档聚类、语言感知搜索，甚至需要可扩展相似度度量的社会语言学研究等任务。

限制与未来工作

对预训练模型的依赖： ATD 继承了底层多语言 Transformer 中存在的任何偏差（例如，英语中心数据的过度代表）。
计算成本： 为众多语言对提取和处理注意力矩阵需要大量内存；作者建议使用抽样策略，但全规模部署仍需大量资源。
语言范围： 实验主要聚焦于预训练语料库覆盖的语言；真正的低资源或文献不足的语言可能缺乏足够的注意力数据，导致 ATD 估计不可靠。
未来方向： 将 ATD 扩展到其他模型族（例如，仅编码器模型）、整合音系或形态特征，并探索动态、上下文相关的距离度量，被视为有前景的后续工作。

作者

Yue Zhao
Jiatao Gu
Paloma Jeretič
Weijie Su

论文信息

arXiv ID: 2603.17912v1
分类: cs.CL, stat.ML
发表时间: 2026年3月18日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

多模态大语言模型（MLLMs）在连接视觉和语言方面取得了令人印象深刻的进展，但它们仍然在空间理解方面存在困难……

[Paper] 机器翻译中的性别消歧：Decoder-Only 架构的诊断评估

虽然 Large Language Models 在广泛的 NLP 任务中取得了 state-of-the-art 的成果，但它们仍然容易受到系统性偏见的影响。其中，性别偏见 …

[论文] ShapleyLaw：一种基于博弈论的多语言 Scaling Laws 方法

在多语言预训练中，预训练模型的测试损失受到预训练数据中每种语言比例的强烈影响，即语言的…

[Paper] 高效免训练多标记预测 via Embedding-Space Probing

大型语言模型（LLMs）尽管仅在下一个标记生成任务上进行训练，却展现出潜在的多标记预测（MTP）能力。我们提出一个简…