[Paper] Multilingual Large Language Models는 모든 자연어를 동등하게 이해하지 못한다

발행: (2026년 2월 24일 오전 02:22 GMT+9)
11 분 소요
원문: arXiv

Source: arXiv - 2602.20065v1

개요

최근 연구에서는 세 가지 인기 있는 다국어 대형 언어 모델(LLM)이 다양한 자연어 집합을 실제로 얼마나 잘 이해하는지를 조사합니다. 12개의 유형학적으로 구별되는 언어를 포함하는 언어‑이해 벤치마크에서 모델들을 테스트함으로써, 저자들은 성능이 크게 차이 난다는 것을 밝혀냈으며—놀랍게도 영어는 어떤 모델에게도 가장 강력한 언어가 아님을 보여줍니다.

주요 기여

  • 다중언어 LLM 3종을 인도‑유럽, 아프리카‑아시아, 튀르크어, 한‑티베트, 일본어계 등 통합 이해 과제에서 교차언어 평가.
  • 인간 기준선 비교, 모든 모델이 원어민보다 뒤처지지만 언어별 격차가 다름을 보여줌.
  • 역설적인 발견: 여러 로맨스 언어(자원 적은 언어 포함)가 일관되게 영어보다 우수함.
  • 성능에 영향을 미치는 요인에 대한 체계적 분석: 토크나이징 세분화, 영어/스페인어와의 언어 거리, 학습 데이터의 양과 출처, WEIRD vs. non‑WEIRD 데이터 구분.
  • 오픈소스 벤치마크 및 프롬프트 스크립트 제공으로 재현성 및 향후 확장 가능.

Methodology

  1. Task selection – 저자들은 짧은 지문을 기반으로 다지선다형 질문에 답하도록 모델에 요구하는 언어 이해 벤치마크를 사용했습니다 (예: “어떤 문장이 이야기를 가장 잘 이어가나요?”). 이 작업은 언어에 구애받지 않으며 생성이 아닌 순수 이해를 측정합니다.
  2. Model suite – 세 가지 널리 사용되는 다국어 LLM을 평가했습니다:
    • LLaMA‑2‑13B‑Chat (오픈‑소스)
    • Mistral‑7B‑Instruct (오픈‑소스)
    • GPT‑4‑Turbo (클로즈드‑소스, API를 통해 접근)
  3. Prompt engineering – 각 대상 언어별로 제로‑샷 프롬프트 템플릿을 제작했으며, 편향을 방지하기 위해 언어 간 문구를 동일하게 유지했습니다.
  4. Languages – 다섯 개 언어 가족과 다양한 자원 수준을 대표하도록 12개의 언어를 선택했습니다 (예: 영어, 스페인어, 프랑스어, 이탈리아어, 포르투갈어, 아랍어, 터키어, 만다린, 일본어, 암하라어, 쿠르드어, 그리고 바스크어).
  5. Human baseline – 원어민이 동일한 질문에 답하여 성능의 상한선을 제공했습니다.
  6. Analysis – 정확도 점수를 언어별 토큰‑어휘 크기, 사전 학습 데이터 양(공개 코퍼스에서 추정), 그리고 언어 거리 메트릭(레벤슈타인 거리, 유형론적 특징)과 같은 메타데이터와 상관관계 분석했습니다.

결과 및 발견

언어GPT‑4‑TurboLLaMA‑2‑13B‑ChatMistral‑7B‑Instruct인간 기준
English78 %71 %69 %96 %
Spanish82 %75 %73 %97 %
French80 %73 %71 %96 %
Italian79 %72 %70 %95 %
Portuguese78 %71 %69 %95 %
Arabic65 %58 %56 %92 %
Turkish63 %55 %53 %90 %
Mandarin60 %52 %50 %93 %
Japanese58 %51 %49 %94 %
Amharic52 %44 %42 %88 %
Kurdish55 %47 %45 %89 %
Basque57 %49 %47 %90 %

핵심 요약

  • 로맨스어군은 세 모델 모두에서 일관되게 영어보다 높은 성능을 보이며, 스페인어가 가장 앞서 있습니다.
  • 성능은 토큰‑어휘 커버리지와 강하게 상관합니다: 서브워드 토큰화가 풍부한 언어(예: 스페인어)가 더 높은 정확도를 달성합니다.
  • 학습 데이터 양도 중요하지만 관계가 선형적이지 않습니다; 적은 양의 고품질 데이터(많은 로맨스어에서처럼)가 더 많지만 잡음이 섞인 코퍼스보다 효과적일 수 있습니다.
  • 영어/스페인어와의 언어적 거리가 변동성의 일부를 설명합니다—모델이 주로 학습한 언어와 형태론이나 어순을 공유하는 언어가 더 좋은 성과를 보입니다.
  • 모든 모델이 인간보다 뒤처져 있어 현재 다국어 LLM이 아직 진정한 이해에 멀리 떨어져 있음을 확인합니다.

실용적 시사점

  1. 제품 현지화 – 다국어 챗봇이나 콘텐츠 생성에 LLM을 활용하는 기업은 모든 언어에 대해 영어 수준의 품질을 가정해서는 안 됩니다. 로맨스어권 시장은 이미 거의 프로덕션 수준의 사용이 가능할 수 있지만, 아랍어, 만다린(중국어), 혹은 암하라어는 추가적인 후처리나 인간이 개입하는 안전장치가 필요할 수 있습니다.
  2. 프롬프트 설계 – 토큰화 인식을 고려한 프롬프트(예: 언어별 토크나이저 사용 또는 명시적 구분자 추가)는 저자원 언어의 성능을 향상시킬 수 있습니다.
  3. 데이터 수집 전략 – 대표성이 낮은 언어를 위한 정제된 고품질 코퍼스에 투자하는 것이 단순히 웹 데이터를 확대하는 것보다 훨씬 큰 효과를 가져옵니다.
  4. 평가 파이프라인 – 저자들이 공개한 벤치마크와 스크립트를 LLM 기반 서비스의 CI/CD에 통합하면, 업데이트가 비영어 로케일에서 성능 저하를 일으키지 않도록 보장할 수 있습니다.
  5. 정책 및 공정성 – 연구 결과는 숨겨진 편향, 즉 “WEIRD”(서구, 교육받은, 산업화된, 부유한, 민주주의) 데이터의 지배가 사용자 경험의 불균형으로 이어진다는 점을 강조합니다. 포괄적인 AI를 목표로 하는 조직은 균형 잡힌 다국어 학습 데이터셋을 우선시해야 합니다.

제한 사항 및 향후 연구

  • 모델 범위 – 세 모델만 조사했으며, 최신 오픈‑소스 다국어 LLM(예: Gemma, LLaVA‑Multilingual)은 다른 패턴을 보일 수 있습니다.
  • 작업 범위 제한 – 이해력 벤치마크는 객관식 독해에 초점을 맞추고 있어, 다른 작업(코드 생성, 추론, 대화)에서는 언어별 강점·약점이 다르게 나타날 수 있습니다.
  • 학습 데이터 추정 – 언어별 토큰 수에 대한 공개 통계는 대략적이어서 데이터 규모 분석의 정밀도가 제한됩니다.
  • 인간 기준 변동성 – 인간 참가자들은 교육 수준이나 시험 형식에 대한 노출이 균일하지 않아 인간‑모델 격차가 약간 과대 평가될 수 있습니다.
  • 향후 연구 방향 – 저자들이 제시한 바와 같이, 더 많은 저자원 및 유형학적으로 극단적인 언어(예: 다형성 언어)를 포함하도록 언어 집합을 확대하고, 검색 강화 LLM을 테스트하며, 토크나이제이션 및 언어 거리 문제를 명시적으로 다루는 파인튜닝 전략을 탐구하는 것이 포함됩니다.

저자

  • Natalia Moskvina
  • Raquel Montero
  • Masaya Yoshida
  • Ferdy Hubers
  • Paolo Morosi
  • Walid Irhaymi
  • Jin Yan
  • Tamara Serrano
  • Elena Pagliarini
  • Fritz Günther
  • Evelina Leivada

논문 정보

  • arXiv ID: 2602.20065v1
  • 분류: cs.CL, cs.AI
  • 출판일: 2026년 2월 23일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »