[Paper] Script Gap: 실제 환경에서 인도 언어를 원어 스크립트와 로마 스크립트로 구분하는 LLM 트리아지 평가

발행: (2025년 12월 12일 오전 01:15 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.10780v1

Overview

새로운 연구 — Script Gap: Evaluating LLM Triage on Indian Languages in Native vs Roman Scripts in a Real‑World Setting — 는 임상 챗봇에 사용되는 대형 언어 모델(LLM)이 사용자가 인도 언어 텍스트를 로마 알파벳(예: “namaste”를 데바나가리 대신 “namaste”로 입력)으로 입력할 때 어려움을 겪는다는 점을 보여준다. 대규모 모자·신생아 건강 트리아지 데이터셋에서 저자들은 로마화된 입력에 대해 F1 점수가 5‑12 포인트 감소한다는 것을 발견했으며, 이는 실제 상황에서 수백만 건의 잘못된 트리아지로 이어질 수 있다.

Key Contributions

  • 첫 번째 실제 환경 벤치마크: 다섯 개 인도 언어와 네팔어에 대해 LLM 기반 건강 트리아지를 네이티브 스크립트와 로마화된 사용자 질의로 비교.
  • 정량적 증거: 동일한 의도가 로마 스크립트로 표현될 때 성능이 체계적으로 5‑12 F1 포인트 감소한다는 사실.
  • 오류 분석 프레임워크: 의미 이해와 하위 분류를 분리하여 모델이 의도를 “파악”하지만 여전히 잘못된 트리아지 라벨을 출력하는 경우를 밝혀냄.
  • 영향 추정: 파트너 모자 건강 기관에서 스크립트 격차가 연간 약 2 백만 건의 추가 트리아지 오류를 초래할 수 있음.
  • 오픈소스 공개: 주석이 달린 데이터셋과 평가 스크립트를 공개하여 정자표기(orthographic) 견고성에 대한 추가 연구를 촉진.

Methodology

  1. 데이터 수집 – 팀은 인도 내 모자 건강 NGO와 협력하여 약 120 k개의 익명화된 트리아지 질의를 수집했다. 각 질의는 임상 긴급도 티어(예: “즉시 의뢰”, “일반 상담”)로 라벨링됨.
  2. 스크립트 변환 – 모든 네이티브 스크립트 메시지에 대해 전문 언어학자가 모바일 키보드에서 사용되는 철자 규칙을 유지하면서 충실한 로마화 버전을 제작.
  3. 모델 선택 – 주요 LLM(OpenAI GPT‑4, Anthropic Claude, Google PaLM 2, 그리고 파인튜닝된 LLaMA 2)을 제로샷 “트리아지 분류” 프롬프트로 사용. 언어별 추가 파인튜닝은 적용되지 않음.
  4. 평가 – 표준 정밀도, 재현율, F1 점수를 네이티브 스크립트와 로마화된 하위 집합 각각에 대해 계산. 부가적인 “의도 복구” 테스트를 통해 최종 트리아지 라벨과 무관하게 모델이 사용자의 우려를 올바르게 패러프레이즈할 수 있는지 측정.
  5. 영향 모델링 – 조직의 과거 콜 볼륨을 활용해 관찰된 F1 격차가 연간 전체 트리아지 오류에 미치는 영향을 추정.

Results & Findings

LanguageScriptF1 (best LLM)Δ F1 (Roman vs Native)
HindiDevanagari0.84–0.09
MarathiDevanagari0.81–0.07
TamilTamil0.78–0.12
TeluguTelugu0.80–0.08
BengaliBengali0.83–0.05
NepaliDevanagari0.82–0.06
  • 의미 파악: 로마화된 경우 85 % 이상에서 모델의 내부 “생각”(chain‑of‑thought 프롬프트를 통해 포착)이 의료 이슈를 정확히 식별.
  • 취약한 출력: 철자 오류, 혼합 스크립트 등 정자표기 노이즈가 존재할 때 최종 분류 단계에서 오류가 불균형적으로 발생.
  • 실제 비용: 평균 8 포인트 F1 손실을 파트너 연간 약 2,500만 건의 트리아지 상호작용에 적용하면 ≈2 백만 건의 추가 오분류가 발생할 것으로 추정되며, 이는 긴급 치료 지연으로 이어질 수 있음.

Practical Implications

  • 제품 팀: 다국어 시장을 위한 건강 챗봇을 구축할 때 로마화된 입력에 대해 의도 추출과 하위 의사결정 로직 모두를 검증해야 함; 의도 “통과”가 안전한 결과를 보장하지 않음.
  • 데이터 파이프라인: 텍스트를 LLM에 전달하기 전에 스크립트 정규화(예: 네이티브 스크립트로 전사) 또는 스크립트에 구애받지 않는 어댑터를 도입해 다양한 정자표기에 대해 강인한 토큰 임베딩을 학습하도록 해야 함.
  • 규제 준수: 임상 의사결정 지원이 규제되는 관할구역에서는 스크립트 격차가 안전 위험으로 간주될 수 있어 스크립트별 성능 감사가 필요함.
  • 개발자 도구: 공개된 데이터셋을 활용해 맞춤형 분류기를 파인튜닝하거나 평가할 수 있으며, Hugging Face Transformers와 같은 라이브러리는 “romanization‑aware” 전처리 모듈을 추가할 여지가 있음.
  • 헬스케어 외: 인도 사용자에게 서비스를 제공하는 고객 지원·금융 봇도 동일한 정자표기 변동성을 겪을 가능성이 높아, 본 연구 결과는 폭넓게 적용 가능함.

Limitations & Future Work

  • 제로샷 초점: 본 연구는 언어별 파인튜닝 없이 오프‑더‑쉘프 LLM을 평가함; 향후 로마화된 코퍼스에 대한 타깃 파인튜닝이 격차를 줄이는지 탐색 필요.
  • 스크립트 다양성: 다섯 개 인도 언어와 네팔어만 다루었으며, 구자라티, 말라얄람 등 많은 지역 언어는 아직 테스트되지 않음.
  • 사용자 행동: 실제 질의는 하나의 메시지 안에 스크립트가 혼합되는 경우가 많음; 현재의 이진 네이티브/로마 구분은 코드스위칭 뉘앙스를 포착하지 못함.
  • 안전 메트릭: 영향 추정은 오류 비용을 균일하게 가정했으며, 보다 세분화된 임상 위험 평가(예: 심각도 가중치)를 통해 실제 위험을 정밀하게 파악할 수 있음.

핵심 요약: 이 연구는 LLM이 로마화된 인도 언어 텍스트를 “이해”할 수 있지만 여전히 안전하지 않은 트리아지 결정을 내릴 수 있는 숨은 취약점을 조명한다. 스크립트 견고성을 확보하는 것이 다국어·고위험 분야에 LLM을 배포하는 모든 조직에게 이제는 구체적이고 높은 영향력을 가진 최우선 과제가 되었다.

Authors

  • Manurag Khullar
  • Utkarsh Desai
  • Poorva Malviya
  • Aman Dalmia
  • Zheyuan Ryan Shi

Paper Information

  • arXiv ID: 2512.10780v1
  • Categories: cs.CL, cs.LG
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »