[논문] 부활절 달걀을 이드에 가져온 사람은? 다양한 언어·지역의 수학 문제 문화 번역 검증

발행: 3일 전 (2026년 6월 10일 AM 12:50 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.11009v1

개요

대규모 언어 모델은 개인 맞춤형 학습을 위해 수학 단어 문제를 대규모로 변형하는 데 점점 더 많이 사용되고 있지만, 이러한 변형이 모델 간에 일관된지, 규모에 따라 문화적 다양성을 유지하는지, 그리고 모델이 가장 중요한 문화적 요소를 어떻게 인식하는지는 아직 미해결 질문으로 남아 있습니다. 우리는 Claude Opus 4, GPT‑4.1, Gemini 2.5 Pro가 60개의 영어 수학 단어 문제를 벵골어, 힌디어, 펀자브어(인도), 우르두어, 신드히어(파키스탄), 이탈리아어, 시칠리아어(이탈리아)로 변형하는 방식을 분석합니다. 이 언어 집합은 고자원 언어인 이탈리아어와 힌디어부터 연구가 부족한 신드히어, 시칠리아어, 펀자브어까지 자원 스펙트럼 전체를 포괄합니다. 우리는 6,489개의 엔터티 변환을 주석 달아 모델이 이름, 음식, 장소와 같은 엔터티를 보존, 현지화, 일반화, 생략 또는 변경했는지를 코딩했습니다. 모델은 62.5%의 경우 변환 유형에 대해 일치했으며, 구체적인 대체어에 대해서는 단 33.5%만 일치했습니다. 이는 모델 선택이 학생들이 마주하게 되는 문화적 세계를 직접 형성한다는 뜻입니다. 21개의 언어‑모델 조합 모두 엔트로피 붕괴를 보였으며, 변형이 문화적 다양성을 확장하기보다 압축한다는 결과가 나타났습니다. 모델은 이름, 음식, 통화와 같은 표면적 마커를 우선시하면서도, 문화적 가정을 내포한 학년 체계와 같은 깊은 구조적 특징은 유지합니다. 목표 국가를 명시하는 프롬프트에도 불구하고, 모델은 인도 벵골어 학생에게 방글라데시 타카를 사용하거나, 달걀 사냥을 이드 행사로 변형하는 등 지역 맥락을 잘못 적용하고 교차 문화 오염을 일으킵니다. 일부 실패는 개별 번역에서 눈에 띄지만, 다양성 붕괴, 표면 마커에 대한 체계적 선호, 일관된 지역 오인과 같은 현상은 코퍼스 수준 분석을 통해서만 드러납니다. 변형된 문제가 겉보기에 올바르게 보이게 만드는 표면적 타당성은 오히려 깊은 실패를 간과하기 쉽게 만드는 요인입니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.CL
cs.CY

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

Parisa Suchdev
Juniper Lovato

논문 정보

arXiv ID: 2606.11009v1
분류: cs.CL, cs.CY
출판일: 2026년 6월 9일
PDF: PDF 다운로드

[논문] 부활절 달걀을 이드에 가져온 사람은? 다양한 언어·지역의 수학 문제 문화 번역 검증

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 완전 무작위 마스킹을 넘어: 어텐션 기반 디노이징 및 최적화, 확산 언어 모델을 위한.

[논문] 폴란드 의학 시험에서 고성능 LLM 재평가: 진정한 실력인가, 편향에 의한 성과인가?

[논문] 제3자 감사를 넘어: 사용자 중심 LLM 편향 연구를 위한 상황적 상호작용 감사

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증