[Paper] 오프라인 데이터 선택과 온라인 자체 정제 생성에 대한 통합 이해: 사후 학습 LLM
Source: arXiv
Abstract
오프라인 데이터 선택과 온라인 자체‑정제 생성은 데이터 품질을 향상시키며, 대형 언어 모델(LLM)을 특정 다운스트림 작업에 맞추는 데 중요한 단계입니다. 우리는 이러한 오프라인 데이터 선택과 온라인 자체‑정제 생성을 최적화 관점에서 다룹니다. 구체적으로, 검증 데이터셋에 대한 바이레벨 데이터 선택을 오프라인 데이터 선택에 사용하고, 온라인 자체‑정제 생성을 현재 응답으로 학습된 모델 중 검증 데이터에 가장 잘 맞는 모델을 선택하는 모델 적응 단계로 간주합니다. 우리의 프레임워크는 각 질문과 응답에 학습된 데이터 가중치를 명시적이든 암시적이든 할당함으로써 오프라인 데이터 선택과 자체‑정제 생성에 대한 통합된 이해를 제공합니다. 처음으로, 우리는 바이레벨 데이터 선택 프레임워크의 효과성을 이론적으로 입증하고, 필터링되지 않은 직접 혼합 베이스라인 대비 성능 향상을 보여줍니다. 오프라인 데이터를 검증 가중치가 적용된 온라인 생성과 결합함으로써, 우리 방법은 파인튜닝 성능을 향상시킵니다. 품질 향상 및 안전 인식 LLM 파인튜닝에 대한 실험을 통해 그 효과성을 검증했습니다.
Subjects
- Machine Learning (cs.LG)
- Computation and Language (cs.CL)
- Optimization and Control (math.OC)
Citation
arXiv: 2511.21056 (cs.LG)
DOI: https://doi.org/10.48550/arXiv.2511.21056
Submission History
- v1, Wed, 26 Nov 2025 04:48:33 UTC (5,430 KB) – submitted by Quan Xiao.