[Paper] Script Gap: 실제 환경에서 인도 언어를 원어 스크립트와 로마 스크립트로 구분하는 LLM 트리아지 평가
Source: arXiv - 2512.10780v1
Overview
새로운 연구 — Script Gap: Evaluating LLM Triage on Indian Languages in Native vs Roman Scripts in a Real‑World Setting — 는 임상 챗봇에 사용되는 대형 언어 모델(LLM)이 사용자가 인도 언어 텍스트를 로마 알파벳(예: “namaste”를 데바나가리 대신 “namaste”로 입력)으로 입력할 때 어려움을 겪는다는 점을 보여준다. 대규모 모자·신생아 건강 트리아지 데이터셋에서 저자들은 로마화된 입력에 대해 F1 점수가 5‑12 포인트 감소한다는 것을 발견했으며, 이는 실제 상황에서 수백만 건의 잘못된 트리아지로 이어질 수 있다.
Key Contributions
- 첫 번째 실제 환경 벤치마크: 다섯 개 인도 언어와 네팔어에 대해 LLM 기반 건강 트리아지를 네이티브 스크립트와 로마화된 사용자 질의로 비교.
- 정량적 증거: 동일한 의도가 로마 스크립트로 표현될 때 성능이 체계적으로 5‑12 F1 포인트 감소한다는 사실.
- 오류 분석 프레임워크: 의미 이해와 하위 분류를 분리하여 모델이 의도를 “파악”하지만 여전히 잘못된 트리아지 라벨을 출력하는 경우를 밝혀냄.
- 영향 추정: 파트너 모자 건강 기관에서 스크립트 격차가 연간 약 2 백만 건의 추가 트리아지 오류를 초래할 수 있음.
- 오픈소스 공개: 주석이 달린 데이터셋과 평가 스크립트를 공개하여 정자표기(orthographic) 견고성에 대한 추가 연구를 촉진.
Methodology
- 데이터 수집 – 팀은 인도 내 모자 건강 NGO와 협력하여 약 120 k개의 익명화된 트리아지 질의를 수집했다. 각 질의는 임상 긴급도 티어(예: “즉시 의뢰”, “일반 상담”)로 라벨링됨.
- 스크립트 변환 – 모든 네이티브 스크립트 메시지에 대해 전문 언어학자가 모바일 키보드에서 사용되는 철자 규칙을 유지하면서 충실한 로마화 버전을 제작.
- 모델 선택 – 주요 LLM(OpenAI GPT‑4, Anthropic Claude, Google PaLM 2, 그리고 파인튜닝된 LLaMA 2)을 제로샷 “트리아지 분류” 프롬프트로 사용. 언어별 추가 파인튜닝은 적용되지 않음.
- 평가 – 표준 정밀도, 재현율, F1 점수를 네이티브 스크립트와 로마화된 하위 집합 각각에 대해 계산. 부가적인 “의도 복구” 테스트를 통해 최종 트리아지 라벨과 무관하게 모델이 사용자의 우려를 올바르게 패러프레이즈할 수 있는지 측정.
- 영향 모델링 – 조직의 과거 콜 볼륨을 활용해 관찰된 F1 격차가 연간 전체 트리아지 오류에 미치는 영향을 추정.
Results & Findings
| Language | Script | F1 (best LLM) | Δ F1 (Roman vs Native) |
|---|---|---|---|
| Hindi | Devanagari | 0.84 | –0.09 |
| Marathi | Devanagari | 0.81 | –0.07 |
| Tamil | Tamil | 0.78 | –0.12 |
| Telugu | Telugu | 0.80 | –0.08 |
| Bengali | Bengali | 0.83 | –0.05 |
| Nepali | Devanagari | 0.82 | –0.06 |
- 의미 파악: 로마화된 경우 85 % 이상에서 모델의 내부 “생각”(chain‑of‑thought 프롬프트를 통해 포착)이 의료 이슈를 정확히 식별.
- 취약한 출력: 철자 오류, 혼합 스크립트 등 정자표기 노이즈가 존재할 때 최종 분류 단계에서 오류가 불균형적으로 발생.
- 실제 비용: 평균 8 포인트 F1 손실을 파트너 연간 약 2,500만 건의 트리아지 상호작용에 적용하면 ≈2 백만 건의 추가 오분류가 발생할 것으로 추정되며, 이는 긴급 치료 지연으로 이어질 수 있음.
Practical Implications
- 제품 팀: 다국어 시장을 위한 건강 챗봇을 구축할 때 로마화된 입력에 대해 의도 추출과 하위 의사결정 로직 모두를 검증해야 함; 의도 “통과”가 안전한 결과를 보장하지 않음.
- 데이터 파이프라인: 텍스트를 LLM에 전달하기 전에 스크립트 정규화(예: 네이티브 스크립트로 전사) 또는 스크립트에 구애받지 않는 어댑터를 도입해 다양한 정자표기에 대해 강인한 토큰 임베딩을 학습하도록 해야 함.
- 규제 준수: 임상 의사결정 지원이 규제되는 관할구역에서는 스크립트 격차가 안전 위험으로 간주될 수 있어 스크립트별 성능 감사가 필요함.
- 개발자 도구: 공개된 데이터셋을 활용해 맞춤형 분류기를 파인튜닝하거나 평가할 수 있으며, Hugging Face Transformers와 같은 라이브러리는 “romanization‑aware” 전처리 모듈을 추가할 여지가 있음.
- 헬스케어 외: 인도 사용자에게 서비스를 제공하는 고객 지원·금융 봇도 동일한 정자표기 변동성을 겪을 가능성이 높아, 본 연구 결과는 폭넓게 적용 가능함.
Limitations & Future Work
- 제로샷 초점: 본 연구는 언어별 파인튜닝 없이 오프‑더‑쉘프 LLM을 평가함; 향후 로마화된 코퍼스에 대한 타깃 파인튜닝이 격차를 줄이는지 탐색 필요.
- 스크립트 다양성: 다섯 개 인도 언어와 네팔어만 다루었으며, 구자라티, 말라얄람 등 많은 지역 언어는 아직 테스트되지 않음.
- 사용자 행동: 실제 질의는 하나의 메시지 안에 스크립트가 혼합되는 경우가 많음; 현재의 이진 네이티브/로마 구분은 코드스위칭 뉘앙스를 포착하지 못함.
- 안전 메트릭: 영향 추정은 오류 비용을 균일하게 가정했으며, 보다 세분화된 임상 위험 평가(예: 심각도 가중치)를 통해 실제 위험을 정밀하게 파악할 수 있음.
핵심 요약: 이 연구는 LLM이 로마화된 인도 언어 텍스트를 “이해”할 수 있지만 여전히 안전하지 않은 트리아지 결정을 내릴 수 있는 숨은 취약점을 조명한다. 스크립트 견고성을 확보하는 것이 다국어·고위험 분야에 LLM을 배포하는 모든 조직에게 이제는 구체적이고 높은 영향력을 가진 최우선 과제가 되었다.
Authors
- Manurag Khullar
- Utkarsh Desai
- Poorva Malviya
- Aman Dalmia
- Zheyuan Ryan Shi
Paper Information
- arXiv ID: 2512.10780v1
- Categories: cs.CL, cs.LG
- Published: December 11, 2025
- PDF: Download PDF