[논문] 마스크된 이점: LLM에서 지역 언어를 통한 문화 지식 접근 탐구

발행: (2026년 6월 6일 AM 01:16 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.07422v1

개요

대형 언어 모델이 다양한 언어에서 문화적 맥락을 가진 질문에 답하는 데 점점 더 많이 활용되고 있지만, 지역 문화 지식에 접근할 때 영어가 더 유리한지 현지 언어가 더 유리한지는 아직 명확하지 않습니다. 기존 평가에는 두 가지 주요 한계가 있습니다. 첫째, 많은 평가가 문화 지식이 자연스럽게 나타나는 방식을 반영하지 못할 수 있는 병렬 템플릿 기반 질문에 의존한다는 점이고, 둘째, 원시 정확도가 일반 언어 능력과 언어 조건부 지식 접근을 혼합해 버린다는 점입니다. 우리는 지역 벤치마크와 현지 출처에서 수집한 실제 문화 질문을 기반으로 한 통제된 프레임워크로 이 문제들을 해결합니다. 질문 유형(문화와 무관한 질문 vs. 문화에 특화된 질문)과 질의 언어(영어 vs. 현지 언어)를 교차시키고, 공유 1PL 항목 반응 이론 모델을 사용해 능력을 추정함으로써 언어 능력과 지역화된 지식 접근을 분리합니다. 13개 지역과 약 80개의 모델을 대상으로 분석한 결과, 문화와 무관한 질문에서는 영어가 일관되게 우위를 보여 영어 능력이 더 뛰어남을 나타냈습니다. 그러나 이 능력 격차를 보정한 뒤에는 거의 모든 지역‑모델 조합에서 현지 언어가 긍정적인 지식 접근 우위를 보였습니다. 이 우위는 원시 정확도에서는 종종 가려지지만, 최신 모델, 지역에 맞춰 정렬된 모델, 혹은 언어에 적응된 모델에서는 더 뚜렷하게 드러납니다. 우리의 결과는 현지 언어 성능이 낮다고 해서 문화 지식이 약한 것은 아니며, 오히려 현지 언어를 통해 지역 문화 지식에 더 쉽게 접근할 수 있지만 제한된 언어 능력 때문에 가려질 수 있음을 시사합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다.

  • cs.CL
  • cs.AI

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

  • Yang Zhang
  • Xiao Fei
  • Amr Mohamed
  • Sarah Almeida Carneiro
  • Mersin Konomi
  • Mingmeng Geng
  • Ahmed Asaad
  • Guokan Shang
  • Michalis Vazirgiannis

논문 정보

  • arXiv ID: 2606.07422v1
  • 분류: cs.CL, cs.AI
  • 출판일: 2026년 6월 5일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »