[논문] 사후 학습 해부: 해석 가능성을 활용해 데이터와 학습 신호를 규정
개요
언어 모델 사후 학습은 모델 행동이 형성되는 주요 단계이지만, 여전히 다양한 요구를 요약한 스칼라 보상을 최적화하는 데 크게 의존합니다. 이러한 추상화는 실무자에게 데이터가 실제로 모델에 무엇을 가르치는지에 대한 가시성을 거의 제공하지 못해, 모델이 잘못된 상관관계를 학습하고 과도한 스타일링이나 아첨과 같은 바람직하지 않은 행동을 유발할 수 있습니다. 이 문제를 해결하기 위해 우리는 다음과 같은 질문을 제기합니다: 최적화 전에 선호 데이터셋을 검토하고 개념 수준에서 모델이 학습하도록 허용할 행동을 결정할 수 있을까? 이러한 동기에 따라 우리는 해석 가능성 프로토콜을 활용해 선호되는 생성과 비선호되는 생성 사이의 잠재 개념을 구분하는 통계적 가설을 개발하고, 이를 세밀한 사용자 피드백을 위해 명시적으로 만드는 데이터 중심 사후 학습 파이프라인을 소개합니다. 이 관점을 바탕으로 여러 해석 기반 학습 프로토콜을 특징 또는 데이터 개입을 통한 보상 형성 방식으로 통합합니다. 실험적으로 우리는 우리 파이프라인이 기존 선호 데이터에서 바람직하지 않은 신호를 진단하고, 목표 외 학습을 완화하며, 안전 장치와 모델 성격과 같은 원하는 특성을 강화하거나 형성하는 데도 도움이 됨을 보여줍니다. 더 넓게는, 우리의 결과가 해석 가능성이 사후 학습을 불투명한 프록시 보상 최적화에서 학습 신호 자체를 감사하고 조형하는 과정으로 전환시킬 수 있음을 시사합니다.
핵심 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.LG 분야의 발전에 기여합니다.
저자
- Leon Bergen
- Usha Bhalla
- Sidharth Baskaran
- Max Loeffler
- Raphael Sarfati
- Dhruvil Gala
- Ryan Panwar
- Santiago Aranguri
- Thomas Fel
- Atticus Geiger
- Matthew Kowal
- Siddharth Boppana
- Daniel Balsam
- Owen Lewis
- Jack Merullo
- Thomas McGrath
- Ekdeep Singh Lubana
논문 정보
- arXiv ID: 2606.12360v1
- Categories: cs.LG
- 출판일: 2026년 6월 10일
- PDF: PDF 다운로드