[Paper] ‘영어로 작성하세요, 여기서는 당신의 언어를 이해하지 못합니다’: 오픈소스 리포지토리에서 비영어 트렌드에 대한 연구

발행: (2026년 2월 23일 오전 11:31 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2602.19446v1

개요

이 논문은 오픈소스 소프트웨어(OSS)가 영어 중심의 생태계에서 진정한 다국어 환경으로 어떻게 진화하고 있는지를 조사한다. 수십억 건의 GitHub 상호작용과 수만 개의 저장소를 분석함으로써, 저자들은 비영어 커뮤니케이션—특히 한국어, 중국어, 러시아어—가 증가하고 있음을 밝혀내며, 이는 협업 역학과 프로젝트 가시성을 재구성하고 있음을 보여준다.

주요 기여

  • 대규모 다국어 분석 – 2015‑2025년 동안 5개 프로그래밍 언어와 30개 자연어에 걸쳐 9.14 B개의 GitHub 이슈, PR, 토론 및 62.5 K개의 저장소를 처리했습니다.
  • 포괄적인 언어 사용 분류 체계 – 세 가지 OSS 아티팩트에서 영어와 비영어 콘텐츠를 추적했습니다: (1) 커뮤니케이션(이슈/PR 댓글), (2) 코드(주석 및 문자열 리터럴), (3) 문서화(README, Wiki 등).
  • 실증적 추세 – 비영어 참여가 꾸준히 증가하고 있음을 보여주었으며, 특히 한국어, 중국어, 러시아어가 가장 강력한 상승 추세를 보였습니다.
  • 가시성 및 참여 격차 – 비영어 콘텐츠가 주를 이루는 프로젝트가 유사한 영어 중심 프로젝트에 비해 스타, 포크, 외부 기여자가 적다는 것을 밝혔습니다.
  • “언어 긴장” 프레임워크 – 모국어 표현이 영어를 우선시하는 커뮤니티 규범과 충돌할 수 있음을 설명하는 사회기술적 관점을 도입하여 온보딩 및 갈등 해결에 미치는 영향을 제시했습니다.

방법론

  1. Data collection – Leveraged the GitHub Archive and the GHTorrent dataset to extract every public issue, pull request, and discussion comment posted between 2015 and 2025.
  2. Language detection – Applied a hybrid pipeline (fastText language ID + custom Unicode script heuristics) to label each textual snippet with one of 30 target languages.
  3. Repository sampling – Selected 62.5 K repositories written in Java, Python, JavaScript, C++, and Go, ensuring a balanced mix of project sizes and activity levels.
  4. Artefact extraction – Parsed source trees to collect code comments, string literals, and documentation files (README, CONTRIBUTING, Wiki pages).
  5. Metric construction – Computed language‑share ratios, growth rates, and visibility indicators (stars, forks, external contributors).
  6. Statistical analysis – Used mixed‑effects regression to isolate language trends while controlling for confounders such as project age and popularity.

The pipeline is deliberately modular, allowing other researchers or tooling teams to plug in additional languages or artefact types without re‑building the whole stack.

결과 및 발견

측면핵심 발견해석
커뮤니케이션비영어 댓글이 전체 이슈/PR 토론의 **3 % (2015)**에서 **12 % (2025)**로 증가했습니다.OSS 대화가 언어적으로 더욱 다양해지고 있습니다.
코드 주석 및 문자열지난 5년간 중국어와 한국어 주석 밀도가 ≈ 150 % 증가했습니다.개발자들이 코드에 모국어 설명을 직접 삽입함으로써 로컬 가독성은 향상되지만, 국경을 넘는 가독성은 감소합니다.
문서다국어 README가 전체 문서의 **1.8 %**에서 **9.4 %**로 증가했습니다.프로젝트가 비영어 사용자들을 대상으로 시작하고 있지만, 여전히 많은 경우 영어 버전만 제공하고 있습니다.
가시성 격차비영어 콘텐츠 비중이 70 % 이상인 프로젝트는 유사 규모의 영어 중심 프로젝트에 비해 ≈ 40 % 적은 스타와 30 % 적은 외부 기여자를 받습니다.언어가 발견과 협업의 장벽으로 작용합니다.
언어 긴장설문에 응한 기여자들은 같은 스레드에서 영어와 모국어를 혼용할 때 “혼란”이나 “마찰”이 발생한다고 보고했으며(응답자의 ≈ 22 %).커뮤니티 규범이 여전히 영어를 선호해 배제나 갈등이 발생할 가능성이 있습니다.

전반적으로 데이터는 지속적인 다국어 전환을 확인하지만, 영어가 OSS 가시성과 참여에서 여전히 강력한 게이트키핑 역할을 하고 있음을 강조합니다.

Practical Implications

  1. 다국어 협업을 위한 도구

    • IDE 플러그인 및 코드 리뷰 봇은 비영어 주석을 자동으로 감지하고 인라인 번역이나 언어 태그를 제안하여 이해 격차를 줄일 수 있습니다.
    • CI 파이프라인은 선택적인 다국어 문서 정책을 강제할 수 있습니다(예: 원어 README.zh.md와 함께 영어 README.en.md를 반드시 포함).
  2. 커뮤니티 거버넌스

    • 프로젝트 유지보수자는 명확한 언어 사용 가이드라인을 채택할 수 있습니다(예: “공개 토론은 영어로; 주석에서는 번역과 함께 모국어 사용 허용”).
    • 언어 혼용을 표시하는 라벨이나 봇은 중재자가 “언어 긴장”이 확대되기 전에 조정할 수 있도록 도와줍니다.
  3. 검색 및 발견

    • 검색 엔진과 GitHub의 추천 알고리즘은 언어 메타데이터를 활용해 해당 언어 사용자를 위한 비영어 프로젝트를 노출시켜 가시성을 높일 수 있습니다.
  4. 온보딩 및 멘토링

    • 전 세계적으로 인재를 채용하는 조직은 이 연구 결과를 바탕으로 다국어 온보딩 자료를 제작해 비영어 배경의 신규 기여자 진입 장벽을 낮출 수 있습니다.
  5. 국제화(i18n) 모범 사례

    • 이 연구는 코드 주석 및 문자열 리터럴을 UI 텍스트와 마찬가지로 1급 국제화(i18n) 대상물로 다루어야 함을 강조합니다.

제한 사항 및 향후 작업

  • 언어 감지 노이즈 – 짧은 스니펫(예: 한 단어 주석)에서는 모호한 ID가 발생할 수 있어 언어별 카운트가 과대 혹은 과소 평가될 수 있습니다.
  • 플랫폼 편향 – 분석이 공개 GitHub 데이터에만 국한되어 있어, 비공개 저장소나 다른 플랫폼(GitLab, Bitbucket)에서는 다른 패턴이 나타날 수 있습니다.
  • 인과관계 vs. 상관관계 – 가시성 격차가 관찰되지만, 언어 자체가 별/포크 수 감소의 직접적인 원인이라고 확정할 수 없으며, 프로젝트 마케팅, 네트워크 효과 등 다른 요인도 작용할 수 있습니다.
  • 향후 방향런타임 현지화 파일, 이슈 라벨링 관행, 프로젝트 간 언어 마이그레이션을 포함하도록 연구 범위를 확대하고, 유지보수자를 위한 실시간 다국어 대시보드를 구축하며, 번역 봇이 기여자 유지에 미치는 영향을 조사하는 통제 실험을 진행하는 것 등을 목표로 합니다.

저자

  • Masudul Hasan Masud Bhuiyan
  • Manish Kumar Bala Kumar
  • Cristian-Alexandru Staicu

논문 정보

  • arXiv ID: 2602.19446v1
  • 분류: cs.SE, cs.CY
  • 출판일: 2026년 2월 23일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »