[Paper] BERnaT: 바스크 인코더를 통한 자연 텍스트 다양성 표현

발행: (2025년 12월 4일 오전 12:50 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.03903v1

개요

이 논문은 BERnaT라는 바스크어 인코더 계열을 소개합니다. 이 모델들은 표준 텍스트, 역사적 텍스트, 소셜 미디어 텍스트를 혼합하여 의도적으로 학습되었습니다. 이를 통해 언어 모델이 방언 및 비공식 변형을 전통적인 벤치마크 성능을 희생하지 않고도 더 견고하고 포괄적으로 다룰 수 있음을 입증합니다.

주요 기여

  • 다양한 코퍼스 구축 – 표준 문학, 역사 문서, 소셜 미디어 게시물을 결합해 풍부한 바스크어 학습 데이터를 만들었습니다.
  • 세 가지 모델 변형 – (i) 표준 데이터만, (ii) 다양한 데이터만, (iii) 두 데이터를 혼합한 모델을 학습시켜 직접 비교가 가능하도록 했습니다.
  • 평가 분할 – NLU 작업을 표준다양한 하위 집합으로 나누는 새로운 벤치마크 분할을 제안해, 언어 변이 전반에 걸친 일반화 성능을 쉽게 측정할 수 있게 했습니다.
  • 실증적 증거 – 표준 데이터와 다양한 데이터를 모두 사용한 모델이 모든 작업 카테고리에서 표준 데이터만 사용한 모델보다 일관되게 우수함을 보였습니다.
  • 오픈소스 공개 – 코퍼스, 사전 학습 체크포인트, 평가 스크립트를 커뮤니티에 공개했습니다.

방법론

  1. 데이터 수집

    • 표준: 현대 바스크어 뉴스 기사와 위키피디아.
    • 역사: 19세기까지 거슬러 올라가는 디지털화된 책과 신문.
    • 소셜 미디어: 트위터, 레딧 등에서 수집한 게시물로, 은어, 방언, 코드 스위칭을 포함합니다.
      모든 텍스트는 정제·중복 제거·공통 서브워드 어휘를 사용해 토크나이즈되었습니다.
  2. 모델 아키텍처

    • BERT‑base와 유사한 표준 Transformer 인코더(12층, hidden size 768)를 사용했습니다.
    • 세 가지 구성으로 학습: BERnaT‑Std, BERnaT‑Div, BERnaT‑All(표준 + 다양).
  3. 학습 절차

    • 마스크드 언어 모델링(MLM) 목표, 토큰 마스킹 비율 15 %.
    • 8 대의 A100 GPU에서 1 M 스텝 동안 혼합 정밀도(mixed‑precision)로 학습해 수렴 속도를 높였습니다.
  4. 평가 프레임워크

    • 바스크어 NLU 작업군(감성 분석, 개체명 인식, 질문 응답 등)을 선정했습니다.
    • 각 작업마다 표준 테스트 세트(표준 코퍼스와 동일 출처)와 다양한 테스트 세트(역사·소셜 미디어 데이터에서 추출)를 만들었습니다.
    • 작업에 따라 macro‑F1 또는 exact‑match 점수를 보고했습니다.

결과 및 발견

Model표준 테스트 평균다양한 테스트 평균전체 Δ (표준만 대비)
BERnaT‑Std84.2 %68.5 %
BERnaT‑Div81.7 %73.9 %+5.4 % (다양)
BERnaT‑All85.1 %77.2 %+8.7 % (다양)
  • 전체 데이터 모델다양한 테스트 성능을 ~9 % 향상시키면서 표준 정확도도 약간 상승시켰습니다.
  • 향상은 작업 전반에 일관되며, 트위터 감성 분석은 F1이 66 %에서 78 %로, 역사적 NER은 71 %에서 80 %로 개선되었습니다.
  • 잡음이 많은 소셜 미디어 텍스트에 과적합되지 않았으며, 이는 균형 잡힌 학습 혼합 덕분입니다.

실용적 함의

  • 보다 포괄적인 애플리케이션 – 챗봇, 검색, 모더레이션 도구가 BERnaT 기반이면 지역 방언 및 비공식 언어를 이해해 “표준”이 아닌 사용자에게도 마찰을 줄일 수 있습니다.
  • 저자원 전이 – 데이터가 제한적인 언어에서도 다양한 잡음이 섞인 소스를 추가하면 실질적인 이득이 있음을 보여주어, 다른 소외된 언어에도 적용 가능한 레시피를 제시합니다.
  • 도메인 이동에 대한 견고성 – 사용자 생성 콘텐츠 등 분포가 다른 텍스트를 마주할 때 실패가 감소해 유지보수 비용이 낮아집니다.
  • 오픈소스 툴킷 – 개발자는 방대한 코퍼스를 직접 수집·정제할 필요 없이 공개된 체크포인트를 다운스트림 작업에 바로 파인튜닝할 수 있습니다.

제한 사항 및 향후 연구

  • 데이터 품질 편차 – 소셜 미디어 텍스트는 맞춤법 오류와 코드 스위칭을 포함해 여전히 지배 방언에 편향될 위험이 있습니다.
  • 규모 – 실험은 BERT‑base 규모 모델에 국한됐으며, 더 큰 아키텍처에 대한 결과는 아직 불명확합니다.
  • 평가 범위 – 현재 벤치마크는 몇 가지 NLU 작업에만 초점을 맞추고 있어, 생성형 혹은 대화형 평가는 향후 연구 과제입니다.
  • 교차언어 일반화 – 바스크어에 대한 결과는 고무적이지만, 교착어와 굴절어 등 형태학적으로 다른 언어에 동일 파이프라인을 적용하려면 추가 검증이 필요합니다.

저자

  • Ekhi Azurmendi
  • Joseba Fernandez de Landa
  • Jaione Bengoetxea
  • Maite Heredia
  • Julen Etxaniz
  • Mikel Zubillaga
  • Ander Soraluze
  • Aitor Soroa

논문 정보

  • arXiv ID: 2512.03903v1
  • Categories: cs.CL, cs.AI
  • Published: 2025년 12월 3일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

LLM은 Gen AI가 아니다.

LLM용 커버 이미지가 Gen AI가 아닙니다. https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3....