[Paper] PSK at SemEval-2026 Task 9: 합성 데이터 증강을 이용한 Ensemble Gemma 모델을 활용한 다국어 편향 감지
Source: arXiv - 2605.05159v1
개요
이 논문은 SemEval‑2026 Task 9에 대한 승리‑에 가까운 솔루션을 설명합니다. 이 과제는 22개 언어에 걸쳐 짧은 텍스트에서 정치적 양극화를 탐지하는 것을 목표로 합니다. 저자들은 대규모 다국어 Gemma 모델을 저‑랭크 어댑터로 미세 조정하고, 정교하게 설계된 합성 예시를 통해 학습 데이터를 풍부하게 함으로써 macro‑F1 0.811을 달성했으며, 전체 순위에서 2위, 여러 언어에서는 1위를 차지했습니다.
Key Contributions
- Per‑language fine‑tuning of two Gemma 3 models (12 B and 27 B parameters) using LoRA, allowing efficient adaptation without full model retraining.
- Synthetic data pipeline that creates three types of augmentations (direct generation, paraphrase, contrastive pairs) via GPT‑4o‑mini, followed by multi‑stage quality filtering and embedding‑based deduplication.
- Dynamic threshold tuning on the development set per language, delivering a consistent 2–4 % boost in F1 without extra training.
- Weighted ensemble strategy that combines predictions from the 12 B and 27 B models, with language‑specific selection of the best‑performing configuration.
- Empirical insight that strong development‑set performers (e.g., XLM‑RoBERTa, Qwen‑3) can dramatically under‑perform on the blind test set, underscoring the need for robust generalization techniques.
주요 기여
- LoRA를 사용한 두 개의 Gemma 3 모델(12 B 및 27 B 파라미터)의 언어별 파인튜닝, 전체 모델 재학습 없이 효율적인 적응 가능.
- GPT‑4o‑mini를 통해 직접 생성, 패러프레이즈, 대조 쌍의 세 가지 증강 유형을 생성하고, 다단계 품질 필터링 및 임베딩 기반 중복 제거를 수행하는 합성 데이터 파이프라인.
- 언어별 개발 세트에서 동적 임계값 튜닝을 적용하여 추가 학습 없이 F1 점수를 일관되게 2–4 % 향상.
- 12 B와 27 B 모델의 예측을 결합하고, 언어별 최적 구성을 선택하는 가중 앙상블 전략.
- 경험적 통찰: 개발 세트에서 높은 성능을 보인 모델(XLM‑RoBERTa, Qwen‑3 등)이 블라인드 테스트 세트에서는 크게 성능이 떨어질 수 있음을 보여, 견고한 일반화 기법의 필요성을 강조.
방법론
- Base Models – 저자들은 이미 100개 이상의 언어를 지원하는 오픈‑소스 Gemma 3 패밀리(12 B 및 27 B 파라미터)에서 시작합니다.
- LoRA Adaptation – 전체 파인‑튜닝 대신 각 트랜스포머 레이어에 저‑랭크 행렬을 삽입하여 GPU 메모리 사용량과 학습 시간을 크게 줄이면서 사전 학습된 지식의 대부분을 유지합니다.
- Synthetic Data Generation
- Direct Generation: GPT‑4o‑mini에 프롬프트를 주어 목표 언어로 새로운 편향/비편향 문장을 작성하게 합니다.
- Paraphrasing: 기존 라벨이 지정된 문장을 LLM에 입력하고 원래 라벨을 유지하는 패러프레이즈를 요청합니다.
- Contrastive Pairs: 라벨을 반전시키는 최소한의 변형 버전을 LLM에 생성하도록 요청하여 어려운 네거티브 예시를 만듭니다.
- Quality Filtering – 각 합성 배치는 다음 과정을 거칩니다:
- Heuristic checks (언어 감지, 비속어 여부, 길이).
- LLM‑based validation (LLM에 문장을 재분류하도록 프롬프트).
- Embedding deduplication (FAISS 인덱스를 사용해 근접 중복을 제거).
- Training – LoRA 어댑터를 원본 데이터와 필터링된 합성 데이터를 합친 전체 집합으로 각 언어별로 별도 학습합니다.
- Inference Tweaks – 학습 후, 저자들은 각 언어별 dev 셋에서 결정 임계값을 탐색하고, 테스트 시점 점수를 위해 최적값을 저장합니다.
- Ensembling – 12 B와 27 B 어댑터의 예측을 가중 평균으로 결합합니다; 가중치는 dev‑셋 성능에 따라 언어별로 선택됩니다.
결과 및 발견
| 지표 (macro‑F1) | 전체 | 최고 언어 | 3개 언어 승리 |
|---|---|---|---|
| 시스템 | 0.811 | 0.872 (언어 X) | 3 (언어 A, B, C) |
| 순위 (SemEval) | 27팀 중 2위 | — | — |
- Threshold tuning은 언어별 절대 F1를 +2–4 % 향상시켰습니다.
- Synthetic data는 원본 데이터만으로 학습한 베이스라인 대비 대략 +5 % F1를 기여했습니다.
- Ensemble vs. single model: 가중 조합이 최고의 단일 Gemma 모델보다 ~1.8 % macro‑F1를 더 높였습니다.
- 대체 아키텍처(XLM‑RoBERTa, Qwen‑3)는 블라인드 테스트 세트에서 30–50 % F1 감소를 보였으며, 개발 데이터에 과적합됨을 강조합니다.
Practical Implications
- 저비용 다국어 적응 – LoRA를 사용하면 27 B 규모 모델을 단일 GPU에서 미세조정할 수 있어, 대규모 연산 자원이 없는 스타트업과 연구실도 고품질 다국어 분류기를 활용할 수 있습니다.
- 합성 데이터는 보편적인 강화제 – 세 단계로 구성된 증강 전략은 라벨이 부족한 저자원 언어에서도 특히, 이진(또는 다중 클래스) 텍스트 분류 작업에 재활용할 수 있습니다.
- 언어별 임계값 설정 – 간단한 사후 보정만으로도 추가 학습 없이도 눈에 띄는 성능 향상을 얻을 수 있으며, 이는 프로덕션 파이프라인에 쉽게 통합됩니다.
- “대형 모델” 과대광고에 대한 견고함 – XLM‑RoBERTa/Qwen‑3의 개발 셋과 테스트 셋 간의 큰 성능 차이는 실무자들에게 리더보드 점수에만 의존하지 말고, 분포 외 데이터에 대한 검증이 필요함을 경고합니다.
- 앙상블 유연성 – 언어별로 전환되는 가중 앙상블을 단일 API 엔드포인트로 배포하면 내부적으로 최적 모델을 선택해 다국어 사용자 기반 전반에 일관된 품질을 제공할 수 있습니다.
제한 사항 및 향후 연구
- 합성 데이터 품질 의존성 – 파이프라인은 GPT‑4o‑mini에 크게 의존하므로, LLM의 편향이나 환각이 학습 세트에 전파될 수 있습니다.
- 22개 언어 이상에 대한 확장성 – LoRA가 계산량을 줄여 주지만, 언어별 어댑터를 별도로 유지하는 것은 언어 수가 증가함에 따라 번거로워질 수 있습니다.
- 임계값 튜닝 오버헤드 – 각 언어마다 개발 세트가 필요합니다; 완전한 제로‑리소스 상황에서는 이 단계가 실현 가능하지 않을 수 있습니다.
- 모델 크기 제한 – LoRA를 사용하더라도 27 B 파라미터 모델의 추론은 실시간 애플리케이션에서 지연이 크게 발생할 수 있으므로, 양자화나 증류와 같은 방법을 탐색하면 완화될 수 있습니다.
향후 연구 방향으로는 언어별 어댑터 선택 자동화, 관련 언어 간 파라미터를 공유하는 다국어 LoRA 탐구, 그리고 합성 증강 프레임워크를 다중 라벨 편향 또는 입장 감지 작업으로 확장하는 것이 포함됩니다.
저자
- Srikar Kashyap Pulipaka
논문 정보
- arXiv ID: 2605.05159v1
- 카테고리: cs.CL, cs.AI, cs.LG
- 출판일: 2026년 5월 6일
- PDF: PDF 다운로드