[Paper] Feature Selection이 적용된 BERT를 이용한 혐오 발언 탐지와 Vocabulary Augmentation
발행: (2025년 12월 2일 오전 04:11 GMT+9)
7 min read
원문: arXiv
Source: arXiv - 2512.02141v1
Overview
이 논문은 정확도를 희생하지 않으면서 학습 데이터와 연산량을 줄이는 보다 간결한 BERT 파인튜닝 방식을 제안한다. 가장 정보량이 높은 샘플을 선택하고, BERT 토크나이저에 속어와 오타가 난 모욕적 용어를 추가함으로써, 저자들은 더 빠르고 적응력이 높은 검열 모델을 위한 실용적인 경로를 제시한다.
Key Contributions
- Data‑efficient sample selection: TF‑IDF 점수를 사용해 가장 정보량이 많은 상위 75 %의 학습 예시만을 유지한다.
- Vocabulary augmentation: BERT의 WordPiece 토크나이저를 혐오 발언 속어, 리트스피크, 그리고 일반적으로 서브‑토큰으로 분리되는 어휘 변형들의 선별된 목록으로 확장한다.
- Empirical validation: 데이터가 축소되고 어휘가 확장된 모델이 표준 혐오 발언 벤치마크에서 기존 BERT 성능과 동등하거나 이를 초과함을 입증한다.
- Computational savings: 학습 시간과 메모리 사용량이 눈에 띄게 감소함을 보여, 이 접근법이 프로덕션 파이프라인에 매력적임을 강조한다.
Methodology
- Dataset preprocessing – 저자들은 공개된 혐오 발언 데이터셋(예: Davidson 또는 Founta 코퍼스)으로 시작한다.
- TF‑IDF‑based pruning – 각 학습 예시마다 코퍼스 전체에 대한 TF‑IDF 벡터를 계산한다. 가장 낮은 총 TF‑IDF 점수를 가진 샘플(하위 25 %)은 차별적인 신호가 거의 없다고 가정하고 제거한다.
- Tokenizer enrichment – 빈번히 등장하는 모욕적 속어, 난독화(예: “h8”, “n1g@”) 및 커뮤니티별 변형을 추출해 도메인 특화 어휘를 구축한다. 이 용어들을 새로운 토큰으로 BERT 토크나이저에 추가하여 일반 서브워드로 분리되는 것을 방지한다.
- Fine‑tuning – 축소된 데이터셋과 확장된 토크나이저를 사용해 표준 BERT‑base 모델을 파인튜닝한다. 하이퍼파라미터는 두 개의 개입 효과를 분리하기 위해 크게 변경되지 않는다.
- Evaluation – 정확도, F1‑score, 정밀도, 재현율 등 표준 지표를 보고하고, 전체 데이터와 원본 토크나이저로 학습한 베이스라인 BERT 모델과 비교한다.
Results & Findings
- Performance parity: 축소된 데이터(샘플 75 %) 모델은 전체 데이터 베이스라인 대비 F1‑score가 0.3 % 차이 내에 머물러, 제거된 예시가 대부분 중복임을 확인한다.
- Boost from augmentation: 속어 토큰을 추가함으로써 축소된 데이터 베이스라인 대비 F1‑score가 약 1.2 % 상승, 기본 어휘가 많은 모욕적 단서를 놓치고 있음을 시사한다.
- Training efficiency: 에포크당 시간이 약 30 % 감소하고, 피크 GPU 메모리 사용량이 약 20 % 감소한다.
- Robustness to novel terms: 새로 만들어진 비방어가 포함된 보류 테스트 세트에서, 확장된 모델은 바닐라 BERT보다 재현율이 약 4 % 절대적으로 높아, 변화하는 언어에 대한 적응력이 향상됨을 보여준다.
Practical Implications
- Faster model iteration: 팀은 비용이 많이 드는 연산 없이도 모델을 더 자주(예: 주간) 재학습할 수 있어, 새로운 혐오 발언 트렌드에 빠르게 대응할 수 있다.
- Lower infrastructure budget: 작은 학습 세트는 클라우드 GPU 비용을 절감시켜, 스타트업 및 소규모 플랫폼도 고급 NLP 검열을 활용할 수 있게 만든다.
- Improved detection of evasive language: 토크나이저가 속어와 리트스피크를 인식하도록 명시적으로 가르침으로써, 검열 API가 단순 난독화 기법에 덜 취약해진다.
- Plug‑and‑play augmentation pipeline: 어휘 확장 단계는 자동화(예: 혐오 포럼 주기적 스크래핑)될 수 있으며, 기존 BERT 파인튜닝 스크립트에 최소한의 코드 변경만으로 통합 가능하다.
Limitations & Future Work
- Lexicon maintenance: 속어 목록은 지속적인 업데이트가 필요하며, 급변하는 밈을 따라잡기 위해 자동 탐색 파이프라인이 요구될 수 있다.
- Generalization to other domains: TF‑IDF 프루닝 전략은 하나의 혐오 발언 벤치마크에서만 평가되었으며, 더 크고 다양성 높은 코퍼스에서의 효용성은 아직 검증되지 않았다.
- Model size constraints: 본 연구는 BERT‑base에 초점을 맞췄으며, RoBERTa‑large와 같은 대형 트랜스포머에 적용할 경우 메모리와 속도 측면에서 다른 트레이드오프가 나타날 수 있다.
- Bias considerations: 도메인 특화 토큰을 추가하면, 선정된 목록이 특정 그룹을 과도하게 대표할 경우 편향이 증폭될 위험이 있다; 향후 작업에서는 편향 완화 검증을 포함해야 한다.
Bottom line: 학습 데이터를 지능적으로 축소하고 BERT에게 혐오 언어를 가르침으로써, 개발자는 더 빠르고 저렴하며 변화하는 속어 환경에 앞서 나갈 수 있는 보다 탄력적인 콘텐츠 검열 모델을 구축할 수 있다.
Authors
- Pritish N. Desai
- Tanay Kewalramani
- Srimanta Mandal
Paper Information
- arXiv ID: 2512.02141v1
- Categories: cs.CL, cs.AI, cs.NE
- Published: December 1, 2025
- PDF: Download PDF