[Paper] VietNormalizer: 오픈소스, 의존성 없는 파이썬 라이브러리, TTS 및 NLP 애플리케이션을 위한 베트남어 텍스트 정규화

발행: (2026년 3월 4일 오후 11:58 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2603.04145v1

개요

이 논문은 VietNormalizer라는 가볍고 의존성이 전혀 없는 파이썬 라이브러리를 소개합니다. 이 라이브러리는 숫자, 날짜, 약어, 이모지, 외국어 단어 등으로 뒤섞인 혼란스러운 베트남어 텍스트를 깔끔하고 완전히 발음 가능한 문장으로 변환합니다. 텍스트‑투‑스피치(TTS) 파이프라인과 많은 NLP 모델을 방해하는 “비표준 단어”들을 처리함으로써, 베트남어 제품을 개발하는 개발자들에게 오랫동안 존재해 온 공백을 메워 줍니다.

Key Contributions

  • Open‑source, pip‑installable library with no external dependencies (no heavy neural models, no GPU required). → 오픈소스이며 pip로 설치 가능한 라이브러리로 외부 의존성이 없습니다 (무거운 신경망 모델이 없으며 GPU가 필요하지 않음).
  • Comprehensive rule‑based pipeline covering seven major NSW classes: integers/decimals, dates/times, VND & USD amounts, percentages, acronyms, loanwords/foreign terms, and Unicode/emoji cleanup. → 포괄적인 규칙 기반 파이프라인으로 일곱 가지 주요 NSW 클래스(정수/소수, 날짜/시간, 베트남 동(VND) 및 미국 달러(USD) 금액, 백분율, 약어, 차용어/외래어, 그리고 유니코드/이모지 정리)를 다룹니다.
  • High‑throughput design: all regex patterns are pre‑compiled at import time, enabling fast batch processing with minimal memory footprint. → 고처리량 설계: 모든 정규식 패턴이 import 시점에 미리 컴파일되어 메모리 사용량을 최소화하면서 빠른 배치 처리를 가능하게 합니다.
  • Customizable acronym dictionary (CSV) and extensible transliteration rules, allowing developers to adapt the system to domain‑specific vocabularies. → 사용자 정의 가능한 약어 사전(CSV) 및 확장 가능한 전사 규칙을 제공하여 개발자가 도메인 특화 어휘에 시스템을 맞출 수 있습니다.
  • MIT‑licensed and hosted on PyPI/GitHub, encouraging community contributions and easy integration into existing TTS/NLP stacks. → MIT 라이선스이며 PyPI/GitHub에 호스팅되어 커뮤니티 기여를 장려하고 기존 TTS/NLP 스택에 손쉽게 통합할 수 있습니다.

Methodology

VietNormalizer는 순수 규칙 기반 접근법을 사용하여 대규모 언어 모델이 필요하지 않도록 합니다:

  1. Pre‑compilation – 라이브러리 초기화 시점에 모든 정규식 패턴(예: 숫자 감지, 날짜 형식)을 한 번만 컴파일하여 실행 중 재컴파일 오버헤드를 방지합니다.
  2. Sequential processing pipeline – 입력 텍스트는 일련의 결정론적 모듈을 통과합니다:
    • Unicode normalization (NFC/NFKC) 및 이모지/특수 기호 제거.
    • Number conversion – 임의 길이 정수, 부동소수점 숫자, 그리고 큰 규모(천, 백만, 억)를 처리하며, 각 자리수를 베트남어 단어로 매핑합니다.
    • Date/Time handling – 일반적인 베트남식 및 ISO 날짜 형식을 인식하고 구어 형태로 변환합니다(예: “12/03/2024” → “mười hai tháng ba năm hai không bốn”).
    • Currency & percentages – VND/USD 기호와 퍼센트 기호를 감지하고 적절한 단위와 함께 확장합니다.
    • Acronym expansion – 사용자 제공 CSV 사전에서 토큰을 찾아 확장합니다(예: “AI” → “trí tuệ nhân tạo”).
    • Transliteration – 손수 만든 매핑 테이블을 적용해 외래 차용어의 발음을 근사합니다(예: “Google” → “gu-gồ”).
  3. Output – 다운스트림 TTS 합성이나 NLP 토큰화를 위해 준비된 정규화된 문자열을 반환합니다.

파이프라인이 결정론적이기 때문에, 개발자는 디버깅, 확장 또는 모듈 순서 변경을 모델의 확률적 동작에 대한 걱정 없이 수행할 수 있습니다.

결과 및 발견

  • 속도 – 표준 노트북(Intel i7, 16 GB RAM)에서 벤치마크한 결과, ≈ 10,000문장/초의 처리 속도를 보였으며, GPU 추론이 필요한 신경망 기반 정규화기보다 훨씬 빠릅니다.
  • 메모리 – 라이브러리는 로드 후 30 MB 이하의 RAM만 사용하므로 엣지 디바이스나 서버리스 함수에 적합합니다.
  • 범위 – 실제 베트남어 문장 5 k개(소셜 미디어, 뉴스, TTS 스크립트)로 구성된 정제된 테스트 세트에서 VietNormalizer는 NSW 인스턴스의 **≈ 96 %**를 올바르게 정규화했으며, 기존 오픈소스 도구가 일반적으로 동일 카테고리의 60–70 %만 처리하는 것보다 뛰어납니다.
  • 오류 분석에서는 몇몇 경계 사례(예: “01/02/03”과 같은 모호한 날짜 형식)에서 규칙 기반 로직만으로는 문맥에 따른 구분이 어려워 추가적인 컨텍스트 해석이 필요함을 강조했습니다.

실용적 함의

  • TTS 파이프라인은 이제 별도의 전처리 단계 없이 원시 사용자 생성 콘텐츠(댓글, 채팅 로그)를 직접 받아들일 수 있어 지연 시간이 감소하고 배포가 간소화됩니다.
  • 베트남 시장을 목표로 하는 음성 비서는 숫자, 날짜, 외국 브랜드명을 신뢰성 있게 읽어 사용자 경험을 향상시킵니다.
  • 감성 분석, 명명 엔터티 인식, 기계 번역과 같은 NLP 작업은 더 깔끔한 토큰 스트림의 혜택을 받아 하위 작업 정확도가 향상됩니다.
  • 서버리스 또는 모바일 앱은 라이브러리를 직접 임베드할 수 있어(작은 용량 덕분) 비용이 많이 드는 모델 다운로드와 GPU 요구사항을 피할 수 있습니다.
  • 빠른 프로토타이핑 – 데이터 과학자는 pip install 한 줄 명령으로 VietNormalizer를 Jupyter 노트북에 연결해 베트남어 코퍼스 실험을 가속화할 수 있습니다.

제한 사항 및 향후 작업

  • 규칙 기반 시스템은 추가적인 언어적 단서 없이 모호한 상황을 해결할 수 없습니다 (예: “03/04/05”는 날짜일 수도 있고 버전 번호일 수도 있음).
  • 도메인 특화 슬랭이나 새로 만든 약어는 수동 사전 업데이트가 필요하며, 라이브러리는 새로운 패턴을 자동으로 학습하지 않습니다.
  • 음역 규칙은 수작업으로 만들어졌으며, 새롭게 등장하는 차용어의 모든 음성적 뉘앙스를 포착하지 못할 수 있습니다.
  • 저자들은 프레임워크를 경량 통계적 모호성 해소(예: 작은 CRF 모델)로 확장하고, 태국어 또는 버마어와 같은 저자원 성조 언어로 교차 언어 전이를 탐색할 것을 제안합니다.

VietNormalizer는 잘 설계된, 의존성이 없는 규칙 기반 접근법이 현대 베트남어 TTS 및 NLP 애플리케이션의 까다로운 실시간 요구를 충족시킬 수 있음을 보여주며, 개발자들에게 원시 사용자 텍스트와 고품질 언어 처리 사이의 격차를 메우는 실용적인 도구를 제공합니다.

저자

  • Hung Vu Nguyen
  • Loan Do
  • Thanh Ngoc Nguyen
  • Ushik Shrestha Khwakhali
  • Thanh Pham
  • Vinh Do
  • Charlotte Nguyen
  • Hien Nguyen

논문 정보

  • arXiv ID: 2603.04145v1
  • 카테고리: cs.CL, cs.NE
  • 출판일: 2026년 3월 4일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »