[논문] ‘Chi nas dal soch el sent de legn’ — 롬바르드어 텍스트 코퍼스 감사

발행: (2026년 6월 5일 AM 01:20 GMT+9)
3 분 소요
원문: arXiv

Source: arXiv - 2606.06349v1

개요

전 세계 여러 언어는 아직도 자연어 처리(NLP) 도구 측면에서 자원이 부족합니다. 이는 주로 기계 번역(MT)과 같은 다양한 작업을 위한 시스템과 모델을 학습·개발·평가할 고품질 데이터셋이 부족하기 때문입니다. 우리는 이탈리아의 자원 부족 언어 연속체인 롬바르드어에 대해 이용 가능한 병렬 및 단일 언어 코퍼스를 수동으로 조사했습니다. 분석 결과, 웹에서 수집된 방대한 데이터가 풍부해 보이지만 실제로는 심각한 언어 오인식, 템플릿 텍스트, 비언어적 잡음으로 가득 차 있다는 착각을 드러냈습니다. 또한, 웹에서 수집된 데이터셋, 선별된 코퍼스, 벤치마크에 포함된 유효한 롬바르드어 부분의 표기 체계를 분석했습니다. 우리의 발견은 상충되는 표기 체계와 모든 코퍼스에 걸친 심각한 대표성 편향을 보여줍니다: 고품질 데이터는 서부 롬바르드어 변종에 크게 치우쳐 있으며, 동부 변종은 주변에 머물러 있습니다. 이는 순수히 양에 초점을 맞춘 스크래핑보다 다양성을 고려한 커뮤니티 주도형 데이터 선별이 필요함을 강조합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

  • Edoardo Signoroni
  • Pavel Rychlý

논문 정보

  • arXiv ID: 2606.06349v1
  • 분류: cs.CL
  • 발표일: 2026년 6월 4일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »