[Paper] Multilingual Large Language Models는 모든 자연어를 동등하게 이해하지 못한다

발행: 3일 전 (2026년 2월 24일 오전 02:22 GMT+9)

11 분 소요

원문: arXiv

Source: arXiv - 2602.20065v1

개요

최근 연구에서는 세 가지 인기 있는 다국어 대형 언어 모델(LLM)이 다양한 자연어 집합을 실제로 얼마나 잘 이해하는지를 조사합니다. 12개의 유형학적으로 구별되는 언어를 포함하는 언어‑이해 벤치마크에서 모델들을 테스트함으로써, 저자들은 성능이 크게 차이 난다는 것을 밝혀냈으며—놀랍게도 영어는 어떤 모델에게도 가장 강력한 언어가 아님을 보여줍니다.

주요 기여

다중언어 LLM 3종을 인도‑유럽, 아프리카‑아시아, 튀르크어, 한‑티베트, 일본어계 등 통합 이해 과제에서 교차언어 평가.
인간 기준선 비교, 모든 모델이 원어민보다 뒤처지지만 언어별 격차가 다름을 보여줌.
역설적인 발견: 여러 로맨스 언어(자원 적은 언어 포함)가 일관되게 영어보다 우수함.
성능에 영향을 미치는 요인에 대한 체계적 분석: 토크나이징 세분화, 영어/스페인어와의 언어 거리, 학습 데이터의 양과 출처, WEIRD vs. non‑WEIRD 데이터 구분.
오픈소스 벤치마크 및 프롬프트 스크립트 제공으로 재현성 및 향후 확장 가능.

Methodology

Task selection – 저자들은 짧은 지문을 기반으로 다지선다형 질문에 답하도록 모델에 요구하는 언어 이해 벤치마크를 사용했습니다 (예: “어떤 문장이 이야기를 가장 잘 이어가나요?”). 이 작업은 언어에 구애받지 않으며 생성이 아닌 순수 이해를 측정합니다.
Model suite – 세 가지 널리 사용되는 다국어 LLM을 평가했습니다:
- LLaMA‑2‑13B‑Chat (오픈‑소스)
- Mistral‑7B‑Instruct (오픈‑소스)
- GPT‑4‑Turbo (클로즈드‑소스, API를 통해 접근)
Prompt engineering – 각 대상 언어별로 제로‑샷 프롬프트 템플릿을 제작했으며, 편향을 방지하기 위해 언어 간 문구를 동일하게 유지했습니다.
Languages – 다섯 개 언어 가족과 다양한 자원 수준을 대표하도록 12개의 언어를 선택했습니다 (예: 영어, 스페인어, 프랑스어, 이탈리아어, 포르투갈어, 아랍어, 터키어, 만다린, 일본어, 암하라어, 쿠르드어, 그리고 바스크어).
Human baseline – 원어민이 동일한 질문에 답하여 성능의 상한선을 제공했습니다.
Analysis – 정확도 점수를 언어별 토큰‑어휘 크기, 사전 학습 데이터 양(공개 코퍼스에서 추정), 그리고 언어 거리 메트릭(레벤슈타인 거리, 유형론적 특징)과 같은 메타데이터와 상관관계 분석했습니다.

결과 및 발견

언어	GPT‑4‑Turbo	LLaMA‑2‑13B‑Chat	Mistral‑7B‑Instruct	인간 기준
English	78 %	71 %	69 %	96 %
Spanish	82 %	75 %	73 %	97 %
French	80 %	73 %	71 %	96 %
Italian	79 %	72 %	70 %	95 %
Portuguese	78 %	71 %	69 %	95 %
Arabic	65 %	58 %	56 %	92 %
Turkish	63 %	55 %	53 %	90 %
Mandarin	60 %	52 %	50 %	93 %
Japanese	58 %	51 %	49 %	94 %
Amharic	52 %	44 %	42 %	88 %
Kurdish	55 %	47 %	45 %	89 %
Basque	57 %	49 %	47 %	90 %

핵심 요약

로맨스어군은 세 모델 모두에서 일관되게 영어보다 높은 성능을 보이며, 스페인어가 가장 앞서 있습니다.
성능은 토큰‑어휘 커버리지와 강하게 상관합니다: 서브워드 토큰화가 풍부한 언어(예: 스페인어)가 더 높은 정확도를 달성합니다.
학습 데이터 양도 중요하지만 관계가 선형적이지 않습니다; 적은 양의 고품질 데이터(많은 로맨스어에서처럼)가 더 많지만 잡음이 섞인 코퍼스보다 효과적일 수 있습니다.
영어/스페인어와의 언어적 거리가 변동성의 일부를 설명합니다—모델이 주로 학습한 언어와 형태론이나 어순을 공유하는 언어가 더 좋은 성과를 보입니다.
모든 모델이 인간보다 뒤처져 있어 현재 다국어 LLM이 아직 진정한 이해에 멀리 떨어져 있음을 확인합니다.

실용적 시사점

제품 현지화 – 다국어 챗봇이나 콘텐츠 생성에 LLM을 활용하는 기업은 모든 언어에 대해 영어 수준의 품질을 가정해서는 안 됩니다. 로맨스어권 시장은 이미 거의 프로덕션 수준의 사용이 가능할 수 있지만, 아랍어, 만다린(중국어), 혹은 암하라어는 추가적인 후처리나 인간이 개입하는 안전장치가 필요할 수 있습니다.
프롬프트 설계 – 토큰화 인식을 고려한 프롬프트(예: 언어별 토크나이저 사용 또는 명시적 구분자 추가)는 저자원 언어의 성능을 향상시킬 수 있습니다.
데이터 수집 전략 – 대표성이 낮은 언어를 위한 정제된 고품질 코퍼스에 투자하는 것이 단순히 웹 데이터를 확대하는 것보다 훨씬 큰 효과를 가져옵니다.
평가 파이프라인 – 저자들이 공개한 벤치마크와 스크립트를 LLM 기반 서비스의 CI/CD에 통합하면, 업데이트가 비영어 로케일에서 성능 저하를 일으키지 않도록 보장할 수 있습니다.
정책 및 공정성 – 연구 결과는 숨겨진 편향, 즉 “WEIRD”(서구, 교육받은, 산업화된, 부유한, 민주주의) 데이터의 지배가 사용자 경험의 불균형으로 이어진다는 점을 강조합니다. 포괄적인 AI를 목표로 하는 조직은 균형 잡힌 다국어 학습 데이터셋을 우선시해야 합니다.

제한 사항 및 향후 연구

모델 범위 – 세 모델만 조사했으며, 최신 오픈‑소스 다국어 LLM(예: Gemma, LLaVA‑Multilingual)은 다른 패턴을 보일 수 있습니다.
작업 범위 제한 – 이해력 벤치마크는 객관식 독해에 초점을 맞추고 있어, 다른 작업(코드 생성, 추론, 대화)에서는 언어별 강점·약점이 다르게 나타날 수 있습니다.
학습 데이터 추정 – 언어별 토큰 수에 대한 공개 통계는 대략적이어서 데이터 규모 분석의 정밀도가 제한됩니다.
인간 기준 변동성 – 인간 참가자들은 교육 수준이나 시험 형식에 대한 노출이 균일하지 않아 인간‑모델 격차가 약간 과대 평가될 수 있습니다.
향후 연구 방향 – 저자들이 제시한 바와 같이, 더 많은 저자원 및 유형학적으로 극단적인 언어(예: 다형성 언어)를 포함하도록 언어 집합을 확대하고, 검색 강화 LLM을 테스트하며, 토크나이제이션 및 언어 거리 문제를 명시적으로 다루는 파인튜닝 전략을 탐구하는 것이 포함됩니다.

저자

Natalia Moskvina
Raquel Montero
Masaya Yoshida
Ferdy Hubers
Paolo Morosi
Walid Irhaymi
Jin Yan
Tamara Serrano
Elena Pagliarini
Fritz Günther
Evelina Leivada

논문 정보

arXiv ID: 2602.20065v1
분류: cs.CL, cs.AI
출판일: 2026년 2월 23일
PDF: PDF 다운로드

[Paper] Multilingual Large Language Models는 모든 자연어를 동등하게 이해하지 못한다

개요

주요 기여

Methodology

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 번역에서 복구: 벤치마크와 데이터셋의 자동 번역을 위한 효율적인 파이프라인

[Paper] GUI‑Libra: 네이티브 GUI 에이전트를 훈련시켜 행동 인식 감독 및 부분 검증 가능한 RL로 추론하고 행동하기

[Paper] AI가 글을 쓸 때, 남는 목소리는 누구인가? Large Language Models에서 세계 영어 변종 간 문화적 표식 삭제량 정량화

[Paper] NoLan: 대형 비전-언어 모델에서 객체 환각을 완화하기 위한 언어 사전의 동적 억제