[Paper] Script Gap:评估 LLM Triage 在真实世界环境中对印度语言的本土脚本与罗马脚本

发布: (2025年12月12日 GMT+8 00:15)
7 min read
原文: arXiv

Source: arXiv - 2512.10780v1

概览

一项新研究 — Script Gap: Evaluating LLM Triage on Indian Languages in Native vs Roman Scripts in a Real‑World Setting — 显示,驱动临床聊天机器人的大型语言模型(LLM)在用户使用罗马字母输入印度语言文本时(例如,将“namaste”写成 “namaste” 而非天城文)会出现失误。在大规模的母婴健康分诊数据集上,作者发现罗马化输入的 F1 分数下降了 5‑12 分,这一差距在实际使用中可能导致数百万误分诊案例。

关键贡献

  • 首个真实场景基准:对五种印度语言及尼泊尔语的 LLM‑基健康分诊进行评估,比较本土脚本和罗马化用户查询。
  • 量化证据:同一意图以罗马字母表达时,性能系统性下降(5‑12 F1 分)。
  • 错误分析框架:将语义理解与下游分类分离,揭示模型常“理解”意图却仍输出错误的分诊标签。
  • 影响估计:在合作的母婴健康组织中,脚本差距可能导致每年约 200 万额外分诊错误
  • 开源发布:提供标注数据集和评估脚本,推动对正字法鲁棒性的进一步研究。

方法论

  1. 数据收集 – 与印度一家母婴健康 NGO 合作,收集约 12 万条匿名分诊查询,来源于准妈妈和照护者。每条查询均标注了临床紧急程度(如“立即转诊”“常规建议”)。
  2. 脚本转换 – 对每条本土脚本信息,由专业语言学家生成忠实的罗马化版本,保留移动键盘常用的拼写约定。
  3. 模型选择 – 选取主流 LLM(OpenAI GPT‑4、Anthropic Claude、Google PaLM 2 以及微调的 LLaMA 2),使用零样本的“分诊分类”指令进行提示。未进行任何语言特定的微调。
  4. 评估 – 分别对本土脚本和罗马化子集计算标准的精确率、召回率和 F1 分数。另设“意图恢复”测试,衡量模型是否能正确复述用户关切,无论最终分诊标签如何。
  5. 影响建模 – 基于组织的历史通话量,预测观察到的 F1 差距在一年内对总分诊错误数的影响。

结果与发现

语言脚本F1(最佳 LLM)Δ F1(罗马 vs 本土)
HindiDevanagari0.84–0.09
MarathiDevanagari0.81–0.07
TamilTamil0.78–0.12
TeluguTelugu0.80–0.08
BengaliBengali0.83–0.05
NepaliDevanagari0.82–0.06
  • 语义把握:在超过 85 % 的罗马化案例中,模型的内部“思考”(通过链式思考提示捕获)能够正确识别医学问题。
  • 输出脆弱:当出现正字法噪声(拼写错误、混合脚本)时,最终分类步骤的失败率显著升高。
  • 真实成本:将平均 8 分的 F1 损失套用到合作伙伴约 2500 万次年度分诊交互,估计会产生 ≈200 万额外误分类,其中许多可能导致紧急护理延误。

实际意义

  • 产品团队:为多语言市场构建健康聊天机器人时,必须 在罗马化输入上同时验证意图提取和下游决策逻辑;意图通过并不等于安全输出。
  • 数据流水线:在将文本送入 LLM 前应加入 脚本标准化(如转写为本土脚本),或训练 脚本无关的适配器,使 token 嵌入在不同正字法间保持鲁棒。
  • 监管合规:在临床决策支持受监管的地区,脚本差距可能被视为安全风险,需进行 脚本特定的性能审计
  • 开发者工具:公开的数据集可用于微调或评估自定义分类器,推动库(如 Hugging Face Transformers)加入 “罗马化感知” 预处理模块。
  • 超出医疗领域:任何面向印度用户的 LLM 驱动客服或金融机器人都可能遭遇相同的正字法多样性,因而本研究的结论具有广泛适用性。

局限性与未来工作

  • 零样本聚焦:本研究评估的是即插即用的 LLM,未进行语言特定的微调;未来可探索在罗马化语料上进行针对性微调是否能缩小差距。
  • 脚本多样性:仅考察了五种印度语言及尼泊尔语,许多地区语言(如 Gujarati、Malayalam)仍未覆盖。
  • 用户行为:真实查询常在同一信息中混合多种脚本,当前的二元本土/罗马划分未捕捉此类代码切换的细微差别。
  • 安全度量:影响估计假设错误成本均等,若引入更细粒度的临床风险评估(如严重程度加权),可更精准地量化真实风险。

结论:该研究揭示了一项隐藏的脆弱性——LLM 能“理解”罗马化的印度语言文本,却仍可能做出不安全的分诊决定。提升脚本鲁棒性已成为在多语言、高风险场景部署 LLM 的紧迫且高影响力的任务。

作者

  • Manurag Khullar
  • Utkarsh Desai
  • Poorva Malviya
  • Aman Dalmia
  • Zheyuan Ryan Shi

论文信息

  • arXiv ID: 2512.10780v1
  • 分类: cs.CL, cs.LG
  • 发布时间: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »