정렬 사전학습: AI 논의가 자기실현적(오)정렬을 만든다

발행: 3주 전 (2026년 5월 19일 AM 06:29 GMT+9)

3 분 소요

출처: Hacker News

초록

사전 학습 코퍼스에는 AI 시스템에 관한 방대한 담론이 포함되어 있지만, 이러한 담론이 하위 작업의 정렬에 미치는 인과적 영향은 아직 충분히 이해되지 않고 있다. 만약 AI 행동에 대한 기존 서술이 주로 부정적이라면, 대형 언어 모델(LLM)은 해당 행동에 대한 선행 지식을 내면화하여 자기 실현적인 오정렬을 초래할 수 있다. 본 논문은 6.9 B 파라미터 규모의 LLM을 다양한 양의 (오)정렬 담론으로 사전 학습시켜, 이 가설에 대한 최초의 통제 실험을 제공한다. 연구 결과, AI에 대한 논의가 오정렬에 기여함을 확인했다. AI 오정렬에 관한 합성 학습 문서를 과다 표본화하면 오정렬 행동이 현저히 증가한다. 반대로, 정렬된 행동에 관한 문서를 과다 표본화하면 오정렬 점수가 45 %에서 9 %로 감소한다. 이는 자기 실현적인 정렬의 증거로 간주한다. 이러한 효과는 사후 학습 단계에서 완화되지만 여전히 남아 있다. 우리의 발견은 사전 학습 데이터가 정렬 선행지식을 어떻게 형성하는지를 연구하는, 즉 정렬 사전 학습(alignment pretraining)이라는 분야를 사후 학습의 보완으로 확립한다. 실무자들은 능력과 함께 정렬을 위한 사전 학습을 고려할 것을 권고한다. 모델, 데이터, 평가 결과는 http://alignmentpretraining.ai/에서 공유한다.

주제

계산 및 언어 (cs.CL)
인공지능 (cs.AI)
기계 학습 (cs.LG)

인용

arXiv: 2601.10160 (cs.CL)
Version 2: 2601.10160v2 (cs.CL)

DOI

10.48550/arXiv.2601.10160 (arXiv‑issued DOI via DataCite)

제출 이력

v1: Thu, 15 Jan 2026 07:59:31 UTC (1,982 KB) – submitted by Kyle O’Brien (view email)
v2: Thu, 19 Feb 2026 22:53:56 UTC (2,369 KB)

정렬 사전학습: AI 논의가 자기실현적(오)정렬을 만든다

초록

주제

인용

DOI

제출 이력

관련 글

Anthropic, AI 모델이 ‘악하게’ 행동하도록 훈련된 원인을 디스토피아 SF 탓.

인간 피드백을 활용한 강화 학습 이해 파트 1: 대형 언어 모델 사전 학습

프롬프트 엔지니어링: AI에서 더 나은 결과를 얻는 방법 (프롬프트를 더 많이 작성하지 않고)

당신의 AI 에이전트는 가드레일만이 아니라 거버넌스 레이어가 필요합니다