[논문] 마스크된 이점: LLM에서 지역 언어를 통한 문화 지식 접근 탐구

발행: 5일 전 (2026년 6월 6일 AM 01:16 GMT+9)

4 분 소요

원문: arXiv

Source: arXiv - 2606.07422v1

개요

대형 언어 모델이 다양한 언어에서 문화적 맥락을 가진 질문에 답하는 데 점점 더 많이 활용되고 있지만, 지역 문화 지식에 접근할 때 영어가 더 유리한지 현지 언어가 더 유리한지는 아직 명확하지 않습니다. 기존 평가에는 두 가지 주요 한계가 있습니다. 첫째, 많은 평가가 문화 지식이 자연스럽게 나타나는 방식을 반영하지 못할 수 있는 병렬 템플릿 기반 질문에 의존한다는 점이고, 둘째, 원시 정확도가 일반 언어 능력과 언어 조건부 지식 접근을 혼합해 버린다는 점입니다. 우리는 지역 벤치마크와 현지 출처에서 수집한 실제 문화 질문을 기반으로 한 통제된 프레임워크로 이 문제들을 해결합니다. 질문 유형(문화와 무관한 질문 vs. 문화에 특화된 질문)과 질의 언어(영어 vs. 현지 언어)를 교차시키고, 공유 1PL 항목 반응 이론 모델을 사용해 능력을 추정함으로써 언어 능력과 지역화된 지식 접근을 분리합니다. 13개 지역과 약 80개의 모델을 대상으로 분석한 결과, 문화와 무관한 질문에서는 영어가 일관되게 우위를 보여 영어 능력이 더 뛰어남을 나타냈습니다. 그러나 이 능력 격차를 보정한 뒤에는 거의 모든 지역‑모델 조합에서 현지 언어가 긍정적인 지식 접근 우위를 보였습니다. 이 우위는 원시 정확도에서는 종종 가려지지만, 최신 모델, 지역에 맞춰 정렬된 모델, 혹은 언어에 적응된 모델에서는 더 뚜렷하게 드러납니다. 우리의 결과는 현지 언어 성능이 낮다고 해서 문화 지식이 약한 것은 아니며, 오히려 현지 언어를 통해 지역 문화 지식에 더 쉽게 접근할 수 있지만 제한된 언어 능력 때문에 가려질 수 있음을 시사합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다.

cs.CL
cs.AI

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

Yang Zhang
Xiao Fei
Amr Mohamed
Sarah Almeida Carneiro
Mersin Konomi
Mingmeng Geng
Ahmed Asaad
Guokan Shang
Michalis Vazirgiannis

논문 정보

arXiv ID: 2606.07422v1
분류: cs.CL, cs.AI
출판일: 2026년 6월 5일
PDF: Download PDF

[논문] 마스크된 이점: LLM에서 지역 언어를 통한 문화 지식 접근 탐구

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 다중어 표현 분류: 감독 학습 vs 시연 기반 인컨텍스트 학습

[논문] TEVI: 희소 오토인코더를 활용한 텍스트 조건부 시각 표현 편집으로 비전‑언어 정렬 개선