[Paper] “用英文写,没人能懂你的语言”:开源仓库中的非英语趋势研究
发布: (2026年2月23日 GMT+8 10:31)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.19446v1
(请提供需要翻译的正文内容,我将按照要求进行简体中文翻译并保留原有的格式。)
概览
本文研究了开源软件(OSS)如何从以英语为中心的生态系统演变为真正的多语言生态系统。通过挖掘数十亿次 GitHub 交互和数万仓库,作者发现非英语交流——尤其是韩语、中文和俄语——正日益增长,重塑了协作动态和项目可见性。
关键贡献
- 大规模多语言分析 – 处理了 9.14 B(91.4 亿)GitHub issue、PR 和讨论,以及 62.5 K(6.25 万)仓库,覆盖 5 种编程语言和 30 种自然语言(2015‑2025)。
- 全面的语言使用分类法 – 在三类 OSS 人工制品中追踪英文与非英文内容:(1) 沟通(issue/PR 评论),(2) 代码(注释和字符串字面量),以及 (3) 文档(README、Wiki 等)。
- 实证趋势 – 展示了非英文参与的稳步增长,韩语、中文和俄语的上升趋势最为显著。
- 可见性与参与差距 – 表明以非英文内容为主的项目在星标、分叉和外部贡献者数量上低于可比的英文主导项目。
- “语言张力”框架 – 提出了一个社会技术视角,描述本族语言表达如何与 privileging English 的社区规范冲突,进而影响新人入门和冲突解决。
方法论
- 数据收集 – 利用 GitHub Archive 和 GHTorrent 数据集,提取 2015 年至 2025 年间发布的所有公开 issue、pull request 和讨论评论。
- 语言检测 – 采用混合流水线(fastText 语言识别 + 自定义 Unicode 脚本启发式)为每段文本标注 30 种目标语言之一。
- 仓库抽样 – 选取 62.5 K 个使用 Java、Python、JavaScript、C++ 和 Go 编写的仓库,确保项目规模和活跃度的平衡组合。
- 制品提取 – 解析源码树,收集代码注释、字符串字面量以及文档文件(README、CONTRIBUTING、Wiki 页面)。
- 度量构建 – 计算语言占比比例、增长率和可见性指标(星标、分叉、外部贡献者)。
- 统计分析 – 使用混合效应回归,在控制项目年龄和受欢迎程度等混杂因素的前提下,孤立语言趋势。
该流水线刻意保持模块化,允许其他研究者或工具团队在不重新构建整个堆栈的情况下,插入额外的语言或制品类型。
结果与发现
| 方面 | 关键发现 | 解释 |
|---|---|---|
| 沟通 | 非英语评论在所有 issue/PR 讨论中从 3 %(2015) 增长至 12 %(2025)。 | 开源软件的对话正变得更加语言多样化。 |
| 代码注释与字符串 | 中文和韩文注释密度在过去五年中增长了 ≈ 150 %。 | 开发者在代码中直接嵌入本国语言解释,提高了本地可读性,但降低了跨境可读性。 |
| 文档 | 多语言 README 在全部文档中的比例从 1.8 % 上升至 9.4 %。 | 项目开始面向非英语受众,但仍有许多仅提供英文版本。 |
| 可见性差距 | 非英语内容占比 > 70 % 的项目获得的星标 ≈ 少40 %,外部贡献者 少30 %,相较于规模相似的以英语为主的项目。 | 语言成为发现和协作的障碍。 |
| 语言紧张 | 调查的贡献者报告称,在同一线程中混用英语和本国语言会产生“困惑”或“摩擦”(约 22 % 的受访者)。 | 社区规范仍倾向于英语,导致潜在的排斥或冲突。 |
总体而言,数据确认了 稳步的多语言转变,但也凸显英语在 OSS 可见性和参与度方面仍保持着强大的门槛作用。
实际影响
-
多语言协作的工具
- IDE 插件和代码审查机器人可以自动检测非英文注释并建议内联翻译或语言标签,减少理解差距。
- CI 流水线可以强制执行可选的多语言文档政策(例如,要求在本地语言
README.zh.md的同时提供英文README.en.md)。
-
社区治理
- 项目维护者可以采用明确的语言使用指南(例如,“所有公开讨论使用英语;在评论中允许使用母语,但需提供翻译”)。
- 标记或机器人可以标记语言混用,帮助版主在紧张升级前进行调解。
-
搜索与发现
- 搜索引擎和 GitHub 的推荐算法可以加入语言元数据,将非英文项目展示给相应语言的使用者,提高可见度。
-
入职培训与导师制
- 全球招聘的组织可以利用这些发现,设计多语言入职材料,降低非英语背景新贡献者的门槛。
-
国际化(i18n)最佳实践
- 研究强调需要将 代码注释和字符串字面量 视为一等的 i18n 资产,而不仅仅是 UI 文本。
限制与未来工作
- 语言检测噪声 – 短片段(例如单词注释)有时会产生模糊的标识,可能导致语言计数被夸大或缩小。
- 平台偏差 – 本分析仅限于公开的 GitHub 数据;私有仓库或其他平台(GitLab、Bitbucket)可能呈现不同的模式。
- 因果关系 vs. 相关性 – 虽然观察到可见性差距,但研究无法明确证明语言本身导致星标/分叉数量较低;其他因素(项目营销、网络效应)可能也起作用。
- 未来方向 – 将研究扩展至包括 运行时本地化文件、问题标签实践 和 跨项目语言迁移;为维护者构建 实时多语言仪表盘;以及开展受控实验,研究翻译机器人如何影响贡献者留存。
作者
- Masudul Hasan Masud Bhuiyan
- Manish Kumar Bala Kumar
- Cristian-Alexandru Staicu
论文信息
- arXiv ID: 2602.19446v1
- 分类: cs.SE, cs.CY
- 发表日期: 2026年2月23日
- PDF: 下载 PDF