[Paper] Script Gap: 실제 환경에서 인도 언어를 원어 스크립트와 로마 스크립트로 구분하는 LLM 트리아지 평가

발행: 1개월 전 (2025년 12월 12일 오전 01:15 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.10780v1

Overview

새로운 연구 — Script Gap: Evaluating LLM Triage on Indian Languages in Native vs Roman Scripts in a Real‑World Setting — 는 임상 챗봇에 사용되는 대형 언어 모델(LLM)이 사용자가 인도 언어 텍스트를 로마 알파벳(예: “namaste”를 데바나가리 대신 “namaste”로 입력)으로 입력할 때 어려움을 겪는다는 점을 보여준다. 대규모 모자·신생아 건강 트리아지 데이터셋에서 저자들은 로마화된 입력에 대해 F1 점수가 5‑12 포인트 감소한다는 것을 발견했으며, 이는 실제 상황에서 수백만 건의 잘못된 트리아지로 이어질 수 있다.

Key Contributions

첫 번째 실제 환경 벤치마크: 다섯 개 인도 언어와 네팔어에 대해 LLM 기반 건강 트리아지를 네이티브 스크립트와 로마화된 사용자 질의로 비교.
정량적 증거: 동일한 의도가 로마 스크립트로 표현될 때 성능이 체계적으로 5‑12 F1 포인트 감소한다는 사실.
오류 분석 프레임워크: 의미 이해와 하위 분류를 분리하여 모델이 의도를 “파악”하지만 여전히 잘못된 트리아지 라벨을 출력하는 경우를 밝혀냄.
영향 추정: 파트너 모자 건강 기관에서 스크립트 격차가 연간 약 2 백만 건의 추가 트리아지 오류를 초래할 수 있음.
오픈소스 공개: 주석이 달린 데이터셋과 평가 스크립트를 공개하여 정자표기(orthographic) 견고성에 대한 추가 연구를 촉진.

Methodology

데이터 수집 – 팀은 인도 내 모자 건강 NGO와 협력하여 약 120 k개의 익명화된 트리아지 질의를 수집했다. 각 질의는 임상 긴급도 티어(예: “즉시 의뢰”, “일반 상담”)로 라벨링됨.
스크립트 변환 – 모든 네이티브 스크립트 메시지에 대해 전문 언어학자가 모바일 키보드에서 사용되는 철자 규칙을 유지하면서 충실한 로마화 버전을 제작.
모델 선택 – 주요 LLM(OpenAI GPT‑4, Anthropic Claude, Google PaLM 2, 그리고 파인튜닝된 LLaMA 2)을 제로샷 “트리아지 분류” 프롬프트로 사용. 언어별 추가 파인튜닝은 적용되지 않음.
평가 – 표준 정밀도, 재현율, F1 점수를 네이티브 스크립트와 로마화된 하위 집합 각각에 대해 계산. 부가적인 “의도 복구” 테스트를 통해 최종 트리아지 라벨과 무관하게 모델이 사용자의 우려를 올바르게 패러프레이즈할 수 있는지 측정.
영향 모델링 – 조직의 과거 콜 볼륨을 활용해 관찰된 F1 격차가 연간 전체 트리아지 오류에 미치는 영향을 추정.

Results & Findings

Language	Script	F1 (best LLM)	Δ F1 (Roman vs Native)
Hindi	Devanagari	0.84	–0.09
Marathi	Devanagari	0.81	–0.07
Tamil	Tamil	0.78	–0.12
Telugu	Telugu	0.80	–0.08
Bengali	Bengali	0.83	–0.05
Nepali	Devanagari	0.82	–0.06

의미 파악: 로마화된 경우 85 % 이상에서 모델의 내부 “생각”(chain‑of‑thought 프롬프트를 통해 포착)이 의료 이슈를 정확히 식별.
취약한 출력: 철자 오류, 혼합 스크립트 등 정자표기 노이즈가 존재할 때 최종 분류 단계에서 오류가 불균형적으로 발생.
실제 비용: 평균 8 포인트 F1 손실을 파트너 연간 약 2,500만 건의 트리아지 상호작용에 적용하면 ≈2 백만 건의 추가 오분류가 발생할 것으로 추정되며, 이는 긴급 치료 지연으로 이어질 수 있음.

Practical Implications

제품 팀: 다국어 시장을 위한 건강 챗봇을 구축할 때 로마화된 입력에 대해 의도 추출과 하위 의사결정 로직 모두를 검증해야 함; 의도 “통과”가 안전한 결과를 보장하지 않음.
데이터 파이프라인: 텍스트를 LLM에 전달하기 전에 스크립트 정규화(예: 네이티브 스크립트로 전사) 또는 스크립트에 구애받지 않는 어댑터를 도입해 다양한 정자표기에 대해 강인한 토큰 임베딩을 학습하도록 해야 함.
규제 준수: 임상 의사결정 지원이 규제되는 관할구역에서는 스크립트 격차가 안전 위험으로 간주될 수 있어 스크립트별 성능 감사가 필요함.
개발자 도구: 공개된 데이터셋을 활용해 맞춤형 분류기를 파인튜닝하거나 평가할 수 있으며, Hugging Face Transformers와 같은 라이브러리는 “romanization‑aware” 전처리 모듈을 추가할 여지가 있음.
헬스케어 외: 인도 사용자에게 서비스를 제공하는 고객 지원·금융 봇도 동일한 정자표기 변동성을 겪을 가능성이 높아, 본 연구 결과는 폭넓게 적용 가능함.

Limitations & Future Work

제로샷 초점: 본 연구는 언어별 파인튜닝 없이 오프‑더‑쉘프 LLM을 평가함; 향후 로마화된 코퍼스에 대한 타깃 파인튜닝이 격차를 줄이는지 탐색 필요.
스크립트 다양성: 다섯 개 인도 언어와 네팔어만 다루었으며, 구자라티, 말라얄람 등 많은 지역 언어는 아직 테스트되지 않음.
사용자 행동: 실제 질의는 하나의 메시지 안에 스크립트가 혼합되는 경우가 많음; 현재의 이진 네이티브/로마 구분은 코드스위칭 뉘앙스를 포착하지 못함.
안전 메트릭: 영향 추정은 오류 비용을 균일하게 가정했으며, 보다 세분화된 임상 위험 평가(예: 심각도 가중치)를 통해 실제 위험을 정밀하게 파악할 수 있음.

핵심 요약: 이 연구는 LLM이 로마화된 인도 언어 텍스트를 “이해”할 수 있지만 여전히 안전하지 않은 트리아지 결정을 내릴 수 있는 숨은 취약점을 조명한다. 스크립트 견고성을 확보하는 것이 다국어·고위험 분야에 LLM을 배포하는 모든 조직에게 이제는 구체적이고 높은 영향력을 가진 최우선 과제가 되었다.

Authors

Manurag Khullar
Utkarsh Desai
Poorva Malviya
Aman Dalmia
Zheyuan Ryan Shi

Paper Information

arXiv ID: 2512.10780v1
Categories: cs.CL, cs.LG
Published: December 11, 2025
PDF: Download PDF

[Paper] Script Gap: 실제 환경에서 인도 언어를 원어 스크립트와 로마 스크립트로 구분하는 LLM 트리아지 평가

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] 신호에서 턴까지: 모듈형 Speech-to-Speech 파이프라인의 상호작용 마찰

[Paper] 대규모 신문 아카이브에서 Neural Topic Modeling을 통한 역사적 인사이트 추출 자동화

[Paper] 환각 억제: 정보이론적 보장을 통한 RAG 시스템의 Merlin-Arthur 프로토콜

[Paper] 블랙박스 언어 모델의 토큰 중요도 시각화