우리는 AI를 인터넷에만 훈련시킨 것이 아니다. 스스로를 대상으로 훈련을 시작했다.

발행: 1주 전 (2026년 5월 29일 AM 05:19 GMT+9)

8 분 소요

Source: Dev.to

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

컴퓨팅 최적화

우리는 컴퓨팅을 마치 주요 제약 조건인 것처럼 최적화했습니다:

GPU
클러스터
병렬 처리
더 빠른 학습 실행

하지만 눈에 잘 띄지 않는 제약이 나타나고 있습니다: 우리는 고품질 인간 데이터가 부족해지고 있습니다. 더 나아가, 우리는 이를 근본적으로 다른 것으로 대체하고 있습니다—우리가 학습하고 있는 바로 그 모델들이 생성한 합성 콘텐츠.

잃어버린 인간 인터넷

새벽 2시, 압박 속에서 작성된 Stack Overflow 답변
의견 충돌과 수정을 가득 담은 Reddit 스레드
절반만 문서화된 트레이드‑오프가 있는 GitHub 레포지토리
실제 불확실성이 내재된 연구 논문
사람들이 논쟁하고, 실패하고, 아이디어를 다듬는 포럼

이것은 전통적인 의미의 “데이터”가 아니라 제약 하에 압축된 인간의 추론이며, 유용한 방식으로 혼돈을 담고 있었다.

합성 콘텐츠의 부상

지금으로 와서 보면, 웹의 큰 부분이 점점 늘어나고 있습니다:

AI가 작성한 블로그 포스트
대규모로 생성된 SEO 페이지
여러 LLM에 의해 다시 작성된 코드 스니펫
요약의 요약, 다시 요약된 내용
인간이 아니라 순위 시스템을 위해 최적화된 콘텐츠

개별적으로 보면 이들 각각은 위험해 보이지 않습니다. 그러나 집합적으로 보면, 인간이 아니라 모델의 행동에 의해 점점 더 형태를 갖추는 새로운 데이터셋을 만들게 됩니다.

재귀적 훈련 루프

우리는 재귀적 훈련 루프에 들어가고 있습니다:

Human data → Model training → AI‑generated content → New training data → …

각 사이클은 다음을 약간씩 감소시킵니다:

분산
독창성
모순 밀도
“이상한” 인간 사례

그리고 다음을 증가시킵니다:

패턴 반복
스타일 수렴
안전하고 평균적인 추론

모델 스케일링의 결과

더 많은 연산 = 더 나은 지능이라는 오해는 분포 붕괴(distribution collapse)를 간과합니다. 데이터셋이 서서히 다음 방향으로 이동한다면:

반복
템플릿화된 추론
평균화된 설명
정보량이 낮은 내용

스케일링은 같은 평균적인 답변에 더 빠르게 수렴할 뿐, 더 깊은 지능을 얻는 것이 아니라 보다 자신감 있는 모방을 얻게 됩니다.

최근에 여러 LLM을 사용해 보았다면, 아마도 이런 현상을 느꼈을 것입니다: 그들은 능력에서가 아니라 목소리에서 수렴하고 있습니다.

동일한 구조화된 총알식 추론
동일한 “균형 잡힌” 어조
동일한 신중한 면책 조항
동일한 예측 가능한 프레이밍 패턴
동일한 안전한 설명 스타일

산업계 반응

주요 AI 연구소들은 조용히 같은 일을 하고 있습니다:

출판사 아카이브 라이선스 확보
포럼 및 커뮤니티 데이터 구매
Reddit 규모의 대화 잠금
독점적인 인간 데이터셋 구축

고품질 인간 생성 데이터가 인프라가 되었으며, 인프라가 모델 크기보다 한계치를 더 많이 결정합니다.

미묘한 실패 모드

사람들은 종종 “AI가 너무 강력해질까요?” 라고 묻습니다. 보다 현실적이고 미묘한 실패 모드는 다음과 같습니다:

AI 시스템이 점점 더 자기 참조적으로 변하고, 자신의 출력에 대한 메아리만을 학습하게 되는 경우.

그럴 때 우리가 잃게 되는 것들:

가장자리 사례에 대한 추론
사고의 새로움
모순 신호
복잡한 인간 직관
예상치 못한 도약

이러한 요소들이 바로 최초의 돌파구를 만든 원동력이었습니다.

갈라지는 인터넷 레이어

비싸고, 선별된, 라이선스된, 복제하기 어려운
저렴하고, 확장 가능하며, 점점 더 자기 참조적인

이 두 레이어 사이의 격차가 파라미터 수보다 모델 품질을 더 정의하게 될 것입니다.

내러티브 업데이트

우리는 종종 “AI는 인터넷에서 학습된다”고 말합니다. 이는 구시대적입니다. 보다 정확한 표현은 다음과 같습니다:

“AI는 이제 이전 버전의 AI에 의해 형성된 뒤 인터넷에서 학습됩니다.”

이 한 가지 변화가 시스템 전체의 역학을 바꿉니다. 인터넷은 단순히 AI를 학습시킨 것이 아니라, AI에게 구조, 어조, 그리고 추론 패턴을 부여했습니다. 이제 AI는 그 동일한 시스템에 다시 피드백하고 있습니다.

전망

우리는 지능 향상이 컴퓨팅 파워가 아니라 압축되지 않은 인간 신호를 자기참조 시스템 안에서 얼마나 오래 보존할 수 있느냐에 의해 제한되는 단계에 진입하고 있을지도 모릅니다. 그 신호가 사라지면 변이가 사라지고, 변이가 없으면 지능은 복합적으로 성장하지 못합니다.

이 내용이 공감된다면, 제가 처음에 이 아이디어의 짧은 버전을 여기서 작성했습니다:

👉

다른 관점을 듣고 싶습니다—특히 오늘날 모델을 구축하거나 훈련시키는 사람들의 의견을 환영합니다.

우리는 AI를 인터넷에만 훈련시킨 것이 아니다. 스스로를 대상으로 훈련을 시작했다.

컴퓨팅 최적화

잃어버린 인간 인터넷

합성 콘텐츠의 부상

재귀적 훈련 루프

모델 스케일링의 결과

산업계 반응

미묘한 실패 모드

갈라지는 인터넷 레이어

내러티브 업데이트

전망

관련 글

나는 일주일 동안 집안일을 녹화하며 돈을 벌었다. 이제 누가 로봇인가?

Cosmos 3가 물리적 AI가 행동하기 전에 생각하도록 돕는 방법

커뮤니티가 Gemma를 “Think”하도록 Tunix와 TPU를 이용해 훈련시킨 방법

메타인지 조절, 아무도 말하지 않는 가장 중요한 AI 역량일지도 모른다.

컴퓨팅 최적화

잃어버린 인간 인터넷

합성 콘텐츠의 부상

재귀적 훈련 루프

모델 스케일링의 결과

산업계 반응

미묘한 실패 모드

갈라지는 인터넷 레이어

내러티브 업데이트

전망

관련 글

나는 일주일 동안 집안일을 녹화하며 돈을 벌었다. 이제 누가 로봇인가?

Cosmos 3가 물리적 AI가 행동하기 전에 생각하도록 돕는 방법

커뮤니티가 Gemma를 “Think”하도록 Tunix와 TPU를 이용해 훈련시킨 방법

메타인지 조절, 아무도 말하지 않는 가장 중요한 AI 역량일지도 모른다.

Cosmos 3가 물리적 AI가 행동하기 전에 생각하도록 돕는 방법