[Paper] 오프라인 데이터 선택과 온라인 자체 정제 생성에 대한 통합 이해: 사후 학습 LLM

발행: 2개월 전 (2025년 11월 26일 오후 01:48 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv

Abstract

오프라인 데이터 선택과 온라인 자체‑정제 생성은 데이터 품질을 향상시키며, 대형 언어 모델(LLM)을 특정 다운스트림 작업에 맞추는 데 중요한 단계입니다. 우리는 이러한 오프라인 데이터 선택과 온라인 자체‑정제 생성을 최적화 관점에서 다룹니다. 구체적으로, 검증 데이터셋에 대한 바이레벨 데이터 선택을 오프라인 데이터 선택에 사용하고, 온라인 자체‑정제 생성을 현재 응답으로 학습된 모델 중 검증 데이터에 가장 잘 맞는 모델을 선택하는 모델 적응 단계로 간주합니다. 우리의 프레임워크는 각 질문과 응답에 학습된 데이터 가중치를 명시적이든 암시적이든 할당함으로써 오프라인 데이터 선택과 자체‑정제 생성에 대한 통합된 이해를 제공합니다. 처음으로, 우리는 바이레벨 데이터 선택 프레임워크의 효과성을 이론적으로 입증하고, 필터링되지 않은 직접 혼합 베이스라인 대비 성능 향상을 보여줍니다. 오프라인 데이터를 검증 가중치가 적용된 온라인 생성과 결합함으로써, 우리 방법은 파인튜닝 성능을 향상시킵니다. 품질 향상 및 안전 인식 LLM 파인튜닝에 대한 실험을 통해 그 효과성을 검증했습니다.

Subjects

Machine Learning (cs.LG)
Computation and Language (cs.CL)
Optimization and Control (math.OC)

Citation

arXiv: 2511.21056 (cs.LG)
DOI: https://doi.org/10.48550/arXiv.2511.21056

Submission History

v1, Wed, 26 Nov 2025 04:48:33 UTC (5,430 KB) – submitted by Quan Xiao.

[Paper] 오프라인 데이터 선택과 온라인 자체 정제 생성에 대한 통합 이해: 사후 학습 LLM

Abstract

Subjects

Citation

Submission History

관련 글

아첨은 첫 번째 LLM ‘다크 패턴’이다

AI 브라우저의 문제점: 보안 결함과 프라이버시의 종말

왜 AI 정렬은 더 나은 평가에서 시작되는가

AI와 정신 건강에 대한 새로운 연구를 위한 자금 지원