[논문] 사후 학습 해부: 해석 가능성을 활용해 데이터와 학습 신호를 규정

발행: 3일 전 (2026년 6월 11일 AM 02:31 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.12360v1

개요

언어 모델 사후 학습은 모델 행동이 형성되는 주요 단계이지만, 여전히 다양한 요구를 요약한 스칼라 보상을 최적화하는 데 크게 의존합니다. 이러한 추상화는 실무자에게 데이터가 실제로 모델에 무엇을 가르치는지에 대한 가시성을 거의 제공하지 못해, 모델이 잘못된 상관관계를 학습하고 과도한 스타일링이나 아첨과 같은 바람직하지 않은 행동을 유발할 수 있습니다. 이 문제를 해결하기 위해 우리는 다음과 같은 질문을 제기합니다: 최적화 전에 선호 데이터셋을 검토하고 개념 수준에서 모델이 학습하도록 허용할 행동을 결정할 수 있을까? 이러한 동기에 따라 우리는 해석 가능성 프로토콜을 활용해 선호되는 생성과 비선호되는 생성 사이의 잠재 개념을 구분하는 통계적 가설을 개발하고, 이를 세밀한 사용자 피드백을 위해 명시적으로 만드는 데이터 중심 사후 학습 파이프라인을 소개합니다. 이 관점을 바탕으로 여러 해석 기반 학습 프로토콜을 특징 또는 데이터 개입을 통한 보상 형성 방식으로 통합합니다. 실험적으로 우리는 우리 파이프라인이 기존 선호 데이터에서 바람직하지 않은 신호를 진단하고, 목표 외 학습을 완화하며, 안전 장치와 모델 성격과 같은 원하는 특성을 강화하거나 형성하는 데도 도움이 됨을 보여줍니다. 더 넓게는, 우리의 결과가 해석 가능성이 사후 학습을 불투명한 프록시 보상 최적화에서 학습 신호 자체를 감사하고 조형하는 과정으로 전환시킬 수 있음을 시사합니다.

핵심 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.LG 분야의 발전에 기여합니다.

저자

Leon Bergen
Usha Bhalla
Sidharth Baskaran
Max Loeffler
Raphael Sarfati
Dhruvil Gala
Ryan Panwar
Santiago Aranguri
Thomas Fel
Atticus Geiger
Matthew Kowal
Siddharth Boppana
Daniel Balsam
Owen Lewis
Jack Merullo
Thomas McGrath
Ekdeep Singh Lubana

논문 정보

arXiv ID: 2606.12360v1
Categories: cs.LG
출판일: 2026년 6월 10일
PDF: PDF 다운로드

[논문] 사후 학습 해부: 해석 가능성을 활용해 데이터와 학습 신호를 규정

개요

핵심 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] UniIntervene: 효율적인 실세계 강화학습을 위한 에이전트 기반 개입

[논문] Ambient Diffusion Policy: 로봇 분야 비최적 데이터로부터 모방 학습

[논문] 서브쿼드러틱 아키텍처: 응용에서 원리까지

[논문] 결손 모달리티가 있는 다중모달 학습을 위한 잠재 세계 복원