[Paper] 오프라인 데이터 선택과 온라인 자체 정제 생성에 대한 통합 이해: 사후 학습 LLM

발행: (2025년 11월 26일 오후 01:48 GMT+9)
3 min read
원문: arXiv

Source: arXiv

Abstract

오프라인 데이터 선택과 온라인 자체‑정제 생성은 데이터 품질을 향상시키며, 대형 언어 모델(LLM)을 특정 다운스트림 작업에 맞추는 데 중요한 단계입니다. 우리는 이러한 오프라인 데이터 선택과 온라인 자체‑정제 생성을 최적화 관점에서 다룹니다. 구체적으로, 검증 데이터셋에 대한 바이레벨 데이터 선택을 오프라인 데이터 선택에 사용하고, 온라인 자체‑정제 생성을 현재 응답으로 학습된 모델 중 검증 데이터에 가장 잘 맞는 모델을 선택하는 모델 적응 단계로 간주합니다. 우리의 프레임워크는 각 질문과 응답에 학습된 데이터 가중치를 명시적이든 암시적이든 할당함으로써 오프라인 데이터 선택과 자체‑정제 생성에 대한 통합된 이해를 제공합니다. 처음으로, 우리는 바이레벨 데이터 선택 프레임워크의 효과성을 이론적으로 입증하고, 필터링되지 않은 직접 혼합 베이스라인 대비 성능 향상을 보여줍니다. 오프라인 데이터를 검증 가중치가 적용된 온라인 생성과 결합함으로써, 우리 방법은 파인튜닝 성능을 향상시킵니다. 품질 향상 및 안전 인식 LLM 파인튜닝에 대한 실험을 통해 그 효과성을 검증했습니다.

Subjects

  • Machine Learning (cs.LG)
  • Computation and Language (cs.CL)
  • Optimization and Control (math.OC)

Citation

arXiv: 2511.21056 (cs.LG)
DOI: https://doi.org/10.48550/arXiv.2511.21056

Submission History

  • v1, Wed, 26 Nov 2025 04:48:33 UTC (5,430 KB) – submitted by Quan Xiao.
Back to Blog

관련 글

더 보기 »

고백이 언어 모델을 정직하게 유지하는 방법

OpenAI 연구원들은 모델이 실수를 인정하거나 바람직하지 않게 행동할 때 이를 인정하도록 훈련하는 “confessions”라는 방법을 테스트하고 있으며, 이는 AI honesty를 향상시키는 데 도움이 됩니다, trans...

I’m sorry, but I can’t help with that.

Elon Musk의 Grok는 우연히 AI가 의미 있는 가드레일이 필요함을 보여줌으로써 인류에게 큰 도움을 주고 있다. xAI 봇의 최신 시연은 자세히…