[Paper] Human Label Variation as Stable Signal: Cross-Annotator Preference Optimization을 통한 Annotator‑Specific Explanation Behavior 학습

발행: 2주 전 (2026년 5월 28일 AM 02:55 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2605.28802v1

개요

This paper investigates whether large language models (LLMs) can capture individual annotators’ reasoning when they provide free‑text explanations for classification decisions. By treating the variation in human explanations as a stable signal rather than noise, the authors show that models can learn to mimic the explain‑and‑label behavior of specific annotators across tasks such as Natural Language Inference (NLI) and paraphrase detection.

주요 기여

Empirical evidence of annotator stability: 내용 효과를 고려한 후, 각 주석자가 레이블과 자유 텍스트 설명 모두에서 인식 가능한 패턴을 보임을 보여준다.
Cross‑Annotator Preference Optimization (CAPO): 동일 입력에 대해 목표 주석자의 출력과 다른 유효하지만 목표 특이성이 낮은 출력들을 명시적으로 대비시키는 새로운 학습 목표를 도입한다.
Comprehensive benchmark: 두 개의 문장 쌍 과제에 대해 각각 네 명의 주석자를 사용하여 프롬프팅, 표준 지도 학습 미세조정(SFT), 그리고 CAPO를 평가하고, 무엇이 효과적인지와 그 이유를 명확히 제시한다.
Human validation of reasoning: CAPO로 학습된 모델이 목표 주석자의 추론 스타일을 유지함을 인간 평가자들이 확인했다.
Open‑source resources: 재현성을 높이기 위해 주석 데이터셋, CAPO 코드, 평가 스크립트를 공개한다.

방법론

Data collection – 두 작업(NLI와 패러프레이즈) 각각에 대해, 4명의 인간 주석자가 1,000개의 문장 쌍에 라벨을 붙이고 각 결정에 대해 짧은 자유 텍스트 설명을 작성했습니다.
Stability analysis – 저자들은 먼저 변동성 중 입력 자체 때문인지 주석자 때문인지를 측정했습니다. 주석자별 예측을 집계하고 내용‑특정 단서를 제거함으로써 일관된 개인별 “설명 서명”을 밝혀냈습니다.
Modeling approaches
- Prompting: 사전 학습된 LLM에게 라벨과 설명을 생성하도록 요청하는 제로‑샷 또는 few‑shot 프롬프트.
- Supervised fine‑tuning (SFT): 단일 주석자의 (label, explanation) 쌍에 대한 표준 교차 엔트로피 학습.
- CAPO: 각 예제마다 모델을 목표 주석자의 출력 쪽으로 끌어당기고 다른 세 주석자의 유효한 출력에서 멀어지게 하는 대비 손실. 이는 모델이 목표 주석자의 추론이 독특한 이유를 학습하도록 장려하며, 단순히 정답만 학습하는 것이 아닙니다.
Evaluation – 측정 지표에는 라벨 정확도, 설명 유사도에 대한 BLEU/ROUGE, 그리고 모델 출력이 목표 주석자의 스타일과 얼마나 잘 일치하는지 인간이 평가하는 judge‑based attribution 테스트가 포함됩니다.

결과 및 발견

접근 방식	레이블 정확도	설명 유사도 (BLEU)	인간 귀속
Prompting (zero‑shot)	62 %	12 %	48 %
Prompting (few‑shot)	68 %	18 %	55 %
SFT (single annotator)	74 %	27 %	71 %
CAPO	77 %	31 %	78 %

프롬프팅은 특정 주석자의 추론을 일관되게 재현하는 데 어려움을 겪으며, 성능이 예시마다 크게 변동합니다.
SFT는 프롬프팅보다 주석자별 패턴을 더 잘 포착하지만 여전히 각 예시를 독립적으로 처리합니다.
CAPO는 특히 인간 귀속 테스트에서 가장 큰 향상을 보이며, 모델이 올바른 레이블을 예측할 뿐만 아니라 주석자의 설명 스타일을 반영함을 확인합니다.
정성적 분석에 따르면 CAPO로 학습된 모델은 주석자마다 다른 미묘한 선호도(예: 어휘 중복에 초점 vs. 논리적 함의)를 유지합니다.

Practical Implications

Personalized AI assistants: 고객‑지원 봇을 특정 지원 담당자의 설명 톤에 맞게 조정하여 기존 지식 베이스와 일관성을 확보할 수 있습니다.
Explainable AI pipelines: 일반적인 사후‑설명 대신, 개발자는 도메인 전문가의 추론과 일치하는 설명을 생성하도록 모델을 학습시켜 신뢰성과 감사 가능성을 향상시킬 수 있습니다.
Annotation cost reduction: 소수의 주석자 기록을 학습함으로써, LLM은 새로운 데이터에 대한 고품질 설명을 생성할 수 있어 광범위한 인간 주석이 필요하지 않게 됩니다.
Regulatory compliance: 설명이 특정 가이드라인을 따라야 하는 분야(예: 금융, 의료)에서 CAPO는 주석자‑별 준수 패턴을 자동으로 적용할 수 있습니다.
Multi‑annotator aggregation: CAPO의 대비 프레임워크를 확장하여 여러 전문가 스타일을 혼합할 수 있어 “스타일‑인식” 앙상블 설명을 가능하게 합니다.

제한 사항 및 향후 연구

데이터셋 크기 및 다양성: 이 연구는 두 개의 작업과 작업당 네 명의 주석자만 사용했으며, 코드 리뷰, 의료 진단 등 더 넓은 분야에서는 다른 안정성 특성을 보일 수 있습니다.
설명 길이: 자유 텍스트 설명은 짧으며 (≈1‑2문장); 더 길고 복잡한 근거로 확장하는 것은 아직 해결되지 않은 문제입니다.
모델 크기 의존성: 실험은 GPT‑Neo‑2.7B와 Llama‑7B를 사용해 수행했으며, 훨씬 크거나 작은 모델에서 CAPO가 어떻게 동작하는지는 아직 불분명합니다.
잠재적 편향 증폭: 단일 주석자의 스타일로 학습하면 해당 주석자의 체계적 편향이 의도치 않게 전파될 수 있으며, 향후 연구에서는 공정성을 고려한 정규화를 탐구해야 합니다.
인터랙티브 파인튜닝: 주석자의 실시간 피드백(예: 수정 루프)을 도입하면 개인화를 더욱 향상시키고 시간에 따른 드리프트를 감소시킬 수 있습니다.

저자

Beiduo Chen
Pingjun Hong
Ziyun Zhang
Benjamin Roth
Anna Korhonen
Barbara Plank

논문 정보

arXiv ID: 2605.28802v1
카테고리: cs.CL
출판일: 2026년 5월 27일
PDF: PDF 다운로드

[Paper] Human Label Variation as Stable Signal: Cross-Annotator Preference Optimization을 통한 Annotator‑Specific Explanation Behavior 학습

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] 언어 모델이 구문은 물론 구성 의미론까지 학습한다: 페어드 포커스 구문 이해 조사

[논문] LongTraceRL: 루브릭 보상으로 검색 에이전트 궤적에서 장기 문맥 추론 학습

[논문] 먼저 마스크가 해제되는 것은? 그래프‑텍스트 생성 확산 모델의 궤적 분석

[논문] 상반되는 근거: 혐오 발언 탐지에서 분류와 설명 가능성 평가 재고