[Paper] PRM 기반 후보 선택 및 순차적 정제를 활용한 영어 및 우르두 언어 모델의 사회적 편향 완화

발행: (2025년 12월 11일 오전 02:36 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.09854v1

Overview

대형 언어 모델(LLM)은 챗 어시스턴트부터 코드 생성기까지 모든 분야에서 기본 인터페이스가 되고 있지만, 특히 프롬프트가 성별, 인종, 종교 등 민감한 주제를 다룰 때 편향되거나 고정관념적인 내용을 자주 내뱉습니다. 본 논문은 추론 시점(inference‑time) 편향 완화(모델 재학습 없이 출력만 수정) 를 영어와 저자원 언어인 우르두어에 대해 조사합니다. 우르두어는 데이터 기반 불평등에 가장 크게 영향을 받는 언어 중 하나입니다.

Key Contributions

  • 통합 평가 프레임워크: 세 가지 추론 시점 전략을 서로 비교
    1. Baseline single‑word generation (LLM의 원시 출력)
    2. PRM‑Select (best‑of‑N) – GPT‑3.5로 N개의 후보를 생성하고, Preference‑Ranking Model(PRM)으로 점수를 매겨 가장 편향이 적은 후보를 선택
    3. PRM‑Sequential refinement – PRM이 만든 비판을 이용해 단일 후보를 반복적으로 개선
  • 교차언어 편향 벤치마크: 성별, 인종, 종교, 국적, 장애, 직업, 연령, 사회경제적 지위 등을 포괄하는 200개의 영어 프롬프트와 그 우르두어 번역
  • 두 모델 파이프라인: 후보 생성에 GPT‑3.5, PRM 스코어링(편향 + 유용도)에는 GPT‑4o‑mini 사용
  • 정량적 지표: 편향 감소, 유용도 유지, 영어와 우르두어 간의 공정성 격차 측정
  • 오픈소스 친화적 방법론: 기존 LLM 배포 파이프라인에 손쉽게 적용 가능

Methodology

  1. 프롬프트 수집 및 번역 – 영어로 사회적으로 민감한 프롬프트를 균형 있게 선정한 뒤, 문화적 뉘앙스를 유지하도록 전문 번역가가 우르두어로 번역
  2. 후보 생성 – 각 프롬프트에 대해 GPT‑3.5가 N개(보통 5개)의 완성을 생성
  3. PRM 스코어링 – Preference‑Ranking Model로 파인튜닝된 GPT‑4o‑mini가 각 후보를 두 축으로 평가
    • 편향 점수 (고정관념·해로운 서술과 얼마나 일치하는가)
    • 유용도 점수 (유창성, 관련성, 과제 수행 정도)
      PRM은 이 두 점수를 결합한 순위를 출력
  4. 선택 전략
    • Baseline: GPT‑3.5의 최상위 후보를 그대로 사용
    • PRM‑Select: N 후보 중 PRM 결합 점수가 가장 높은 후보 선택
    • PRM‑Sequential: 원시 최상위 후보를 시작점으로 삼아 PRM에게 비판 및 수정 제안을 요청, 정해진 횟수(보통 2‑3회)만큼 반복
  5. 평가 – 각 방법에 대해 공정성 지표(예: 인구통계적 평등, 편향 증폭)와 유용성 지표(BLEU, ROUGE, 인간 평가)를 영어와 우르두어 각각에 대해 계산

Results & Findings

MethodBias Reduction (↑)Utility Retention (↓ loss)Fairness Gap (Urdu‑English)
Baseline0% (reference)0%0.12
PRM‑Select38% average bias drop5% utility loss0.09
PRM‑Sequential45% bias drop (best)9% utility loss (more edits)0.07
  • 두 PRM 기반 방법 모두 원시 베이스라인보다 크게 우수하며, 두 언어 모두에서 편향이 현저히 감소했습니다.
  • 우르두어는 일관되게 공정성 점수가 낮게(잔여 편향이 높게) 나타났으며, 이는 저자원 언어가 다국어 학습 코퍼스에서 구조적 불평등을 물려받는다는 가설을 뒷받침합니다.
  • **PRM‑Select는 “플러그‑앤‑플레이”**에 가깝고 지연 시간이 최소인 반면, PRM‑Sequential은 추가 추론 단계가 필요하지만 가장 강력한 편향 완화를 제공합니다.
  • 유용성(유창성, 관련성)은 여전히 높으며, 약간의 감소는 대부분 사용자‑대면 애플리케이션에서 허용 가능한 수준입니다.

Practical Implications

  • 미들웨어 레이어로 배포 가능: 기존 LLM API를 PRM‑Select 또는 PRM‑Sequential 래퍼로 감싸면, 비용이 많이 드는 파인튜닝 없이도 편향 완화를 구현할 수 있습니다.
  • 저자원 언어 지원: 프레임워크는 우르두어(및 유사 언어)에서 공정성 격차를 줄이기 위해 N을 늘리거나 정제 단계를 추가해야 함을 강조합니다.
  • 규제 준수: AI 공정성 가이드라인을 적용받는 기업은 이 추론 시점 방어막을 도입해 사전 편향 감소를 입증할 수 있습니다.
  • 비용 효율성: 추론만 필요하므로 기존 컴퓨팅 예산 내에서 확장 가능하며, PRM 스코어러는 전체 모델보다 작은 GPT‑4o‑mini와 같은 저렴한 모델로 충분합니다.
  • 다른 모달리티에도 확장 가능: 코드 생성, 요약, 번역 파이프라인 등 편향이 다른 방식으로 나타나는 작업에도 동일한 PRM‑가이드 선택 방식을 적용할 수 있습니다.

Limitations & Future Work

  • PRM 자체의 편향 의존성: 편향 스코어러(GPT‑4o‑mini) 역시 언어 모델이며, 특히 문화적으로 특수한 우르두어 상황에서 맹점을 가질 수 있습니다.
  • 지연 시간 오버헤드: PRM‑Sequential은 여러 추론 라운드를 필요로 하여 실시간 채팅에는 부담이 될 수 있습니다.
  • 프롬프트 커버리지: 벤치마크는 다양하지만 여전히 제한된 사회적 카테고리 집합이며, 희귀하거나 교차적인 편향은 놓칠 가능성이 있습니다.
  • N에 대한 확장성: 후보를 많이 생성하면 선택 품질은 향상되지만 API 비용이 선형적으로 증가합니다.
  • 향후 연구 방향(저자들이 제시)
    1. 각 대상 언어별 경량 PRM 전용 모델 학습
    2. 반복 횟수를 줄이기 위한 강화학습 기반 정제 탐색
    3. 멀티모달 LLM(예: 비전‑언어 모델)으로 프레임워크 확장

Authors

  • Muneeb Ur Raheem Khan

Paper Information

  • arXiv ID: 2512.09854v1
  • Categories: cs.CL
  • Published: December 10, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »