[Paper] Multilingual Large Language Models는 모든 자연어를 동등하게 이해하지 못한다
발행: (2026년 2월 24일 오전 02:22 GMT+9)
11 분 소요
원문: arXiv
Source: arXiv - 2602.20065v1
개요
최근 연구에서는 세 가지 인기 있는 다국어 대형 언어 모델(LLM)이 다양한 자연어 집합을 실제로 얼마나 잘 이해하는지를 조사합니다. 12개의 유형학적으로 구별되는 언어를 포함하는 언어‑이해 벤치마크에서 모델들을 테스트함으로써, 저자들은 성능이 크게 차이 난다는 것을 밝혀냈으며—놀랍게도 영어는 어떤 모델에게도 가장 강력한 언어가 아님을 보여줍니다.
주요 기여
- 다중언어 LLM 3종을 인도‑유럽, 아프리카‑아시아, 튀르크어, 한‑티베트, 일본어계 등 통합 이해 과제에서 교차언어 평가.
- 인간 기준선 비교, 모든 모델이 원어민보다 뒤처지지만 언어별 격차가 다름을 보여줌.
- 역설적인 발견: 여러 로맨스 언어(자원 적은 언어 포함)가 일관되게 영어보다 우수함.
- 성능에 영향을 미치는 요인에 대한 체계적 분석: 토크나이징 세분화, 영어/스페인어와의 언어 거리, 학습 데이터의 양과 출처, WEIRD vs. non‑WEIRD 데이터 구분.
- 오픈소스 벤치마크 및 프롬프트 스크립트 제공으로 재현성 및 향후 확장 가능.
Methodology
- Task selection – 저자들은 짧은 지문을 기반으로 다지선다형 질문에 답하도록 모델에 요구하는 언어 이해 벤치마크를 사용했습니다 (예: “어떤 문장이 이야기를 가장 잘 이어가나요?”). 이 작업은 언어에 구애받지 않으며 생성이 아닌 순수 이해를 측정합니다.
- Model suite – 세 가지 널리 사용되는 다국어 LLM을 평가했습니다:
- LLaMA‑2‑13B‑Chat (오픈‑소스)
- Mistral‑7B‑Instruct (오픈‑소스)
- GPT‑4‑Turbo (클로즈드‑소스, API를 통해 접근)
- Prompt engineering – 각 대상 언어별로 제로‑샷 프롬프트 템플릿을 제작했으며, 편향을 방지하기 위해 언어 간 문구를 동일하게 유지했습니다.
- Languages – 다섯 개 언어 가족과 다양한 자원 수준을 대표하도록 12개의 언어를 선택했습니다 (예: 영어, 스페인어, 프랑스어, 이탈리아어, 포르투갈어, 아랍어, 터키어, 만다린, 일본어, 암하라어, 쿠르드어, 그리고 바스크어).
- Human baseline – 원어민이 동일한 질문에 답하여 성능의 상한선을 제공했습니다.
- Analysis – 정확도 점수를 언어별 토큰‑어휘 크기, 사전 학습 데이터 양(공개 코퍼스에서 추정), 그리고 언어 거리 메트릭(레벤슈타인 거리, 유형론적 특징)과 같은 메타데이터와 상관관계 분석했습니다.
결과 및 발견
| 언어 | GPT‑4‑Turbo | LLaMA‑2‑13B‑Chat | Mistral‑7B‑Instruct | 인간 기준 |
|---|---|---|---|---|
| English | 78 % | 71 % | 69 % | 96 % |
| Spanish | 82 % | 75 % | 73 % | 97 % |
| French | 80 % | 73 % | 71 % | 96 % |
| Italian | 79 % | 72 % | 70 % | 95 % |
| Portuguese | 78 % | 71 % | 69 % | 95 % |
| Arabic | 65 % | 58 % | 56 % | 92 % |
| Turkish | 63 % | 55 % | 53 % | 90 % |
| Mandarin | 60 % | 52 % | 50 % | 93 % |
| Japanese | 58 % | 51 % | 49 % | 94 % |
| Amharic | 52 % | 44 % | 42 % | 88 % |
| Kurdish | 55 % | 47 % | 45 % | 89 % |
| Basque | 57 % | 49 % | 47 % | 90 % |
핵심 요약
- 로맨스어군은 세 모델 모두에서 일관되게 영어보다 높은 성능을 보이며, 스페인어가 가장 앞서 있습니다.
- 성능은 토큰‑어휘 커버리지와 강하게 상관합니다: 서브워드 토큰화가 풍부한 언어(예: 스페인어)가 더 높은 정확도를 달성합니다.
- 학습 데이터 양도 중요하지만 관계가 선형적이지 않습니다; 적은 양의 고품질 데이터(많은 로맨스어에서처럼)가 더 많지만 잡음이 섞인 코퍼스보다 효과적일 수 있습니다.
- 영어/스페인어와의 언어적 거리가 변동성의 일부를 설명합니다—모델이 주로 학습한 언어와 형태론이나 어순을 공유하는 언어가 더 좋은 성과를 보입니다.
- 모든 모델이 인간보다 뒤처져 있어 현재 다국어 LLM이 아직 진정한 이해에 멀리 떨어져 있음을 확인합니다.
실용적 시사점
- 제품 현지화 – 다국어 챗봇이나 콘텐츠 생성에 LLM을 활용하는 기업은 모든 언어에 대해 영어 수준의 품질을 가정해서는 안 됩니다. 로맨스어권 시장은 이미 거의 프로덕션 수준의 사용이 가능할 수 있지만, 아랍어, 만다린(중국어), 혹은 암하라어는 추가적인 후처리나 인간이 개입하는 안전장치가 필요할 수 있습니다.
- 프롬프트 설계 – 토큰화 인식을 고려한 프롬프트(예: 언어별 토크나이저 사용 또는 명시적 구분자 추가)는 저자원 언어의 성능을 향상시킬 수 있습니다.
- 데이터 수집 전략 – 대표성이 낮은 언어를 위한 정제된 고품질 코퍼스에 투자하는 것이 단순히 웹 데이터를 확대하는 것보다 훨씬 큰 효과를 가져옵니다.
- 평가 파이프라인 – 저자들이 공개한 벤치마크와 스크립트를 LLM 기반 서비스의 CI/CD에 통합하면, 업데이트가 비영어 로케일에서 성능 저하를 일으키지 않도록 보장할 수 있습니다.
- 정책 및 공정성 – 연구 결과는 숨겨진 편향, 즉 “WEIRD”(서구, 교육받은, 산업화된, 부유한, 민주주의) 데이터의 지배가 사용자 경험의 불균형으로 이어진다는 점을 강조합니다. 포괄적인 AI를 목표로 하는 조직은 균형 잡힌 다국어 학습 데이터셋을 우선시해야 합니다.
제한 사항 및 향후 연구
- 모델 범위 – 세 모델만 조사했으며, 최신 오픈‑소스 다국어 LLM(예: Gemma, LLaVA‑Multilingual)은 다른 패턴을 보일 수 있습니다.
- 작업 범위 제한 – 이해력 벤치마크는 객관식 독해에 초점을 맞추고 있어, 다른 작업(코드 생성, 추론, 대화)에서는 언어별 강점·약점이 다르게 나타날 수 있습니다.
- 학습 데이터 추정 – 언어별 토큰 수에 대한 공개 통계는 대략적이어서 데이터 규모 분석의 정밀도가 제한됩니다.
- 인간 기준 변동성 – 인간 참가자들은 교육 수준이나 시험 형식에 대한 노출이 균일하지 않아 인간‑모델 격차가 약간 과대 평가될 수 있습니다.
- 향후 연구 방향 – 저자들이 제시한 바와 같이, 더 많은 저자원 및 유형학적으로 극단적인 언어(예: 다형성 언어)를 포함하도록 언어 집합을 확대하고, 검색 강화 LLM을 테스트하며, 토크나이제이션 및 언어 거리 문제를 명시적으로 다루는 파인튜닝 전략을 탐구하는 것이 포함됩니다.
저자
- Natalia Moskvina
- Raquel Montero
- Masaya Yoshida
- Ferdy Hubers
- Paolo Morosi
- Walid Irhaymi
- Jin Yan
- Tamara Serrano
- Elena Pagliarini
- Fritz Günther
- Evelina Leivada
논문 정보
- arXiv ID: 2602.20065v1
- 분류: cs.CL, cs.AI
- 출판일: 2026년 2월 23일
- PDF: PDF 다운로드