왜 AI는 스스로 만든 쓰레기로 학습하고 있는가 (그리고 이를 해결하는 방법)

발행: 3시간 전 (2026년 4월 9일 AM 01:30 GMT+9)

13 분 소요

Source: Towards Data Science

AI 훈련의 데이터 딜레마

LLM이나 AI 에이전트를 한동안 사용해 왔다면, 앞으로 이 도구들이 어떻게 훈련될지 궁금했을 것입니다. 흔히 제기되는 우려는 우리가 이미 점점 더 큰 모델을 훈련시키는 데 필요한 고품질 인간 생성 데이터를 다 써버렸을지도 모른다는 점입니다.

“모델 붕괴(Model Collapse)” 문제

지속적인 데이터 성장: 매일 새로운 콘텐츠가 웹에 추가됩니다.
AI‑생성 잡음: 그 새로운 콘텐츠 중 점점 더 많은 비중이 AI에 의해 생성됩니다.
자기 강화: 공개 웹 데이터를 가지고 훈련하면 결국 이전 모델들의 출력물 위에서 훈련하게 됩니다.
모델 붕괴: 연구자들은 이 피드백 루프를 Model Collapse라고 부릅니다—모델이 전임자들의 실수를 학습하면서 시스템이 무의미한 결과로 점점 악화되는 현상입니다.

다른 관점

우리가 실제로 데이터를 다 써버린 것이 아니라, 잘못된 곳을 바라보고 있는 것은 아닐까요?

이 글의 나머지 부분에서는 this brilliant paper 에서 제시한 대안적인 데이터 소스와 AI 훈련을 지속 가능하게 유지하기 위한 전략을 핵심 인사이트와 함께 살펴보겠습니다.

우리가 이미 사용하는 웹과 중요한 웹

대부분은 웹을 하나의 정보원으로 생각하지만, 실제로는 최소 두 개의 뚜렷한 층이 존재합니다.

Surface Web

검색 엔진이 크롤링할 수 있는 Reddit, Wikipedia, 뉴스 사이트 등과 같은 인덱싱된 공개 인터넷 부분입니다. 이는 우리가 수년간 스크래핑하고 과도하게 사용해 온 데이터이며, 오늘날 주류 AI 모델을 학습시키는 데 활용되었습니다.

Deep Web

“다크 웹”이나 불법 콘텐츠와 혼동하지 마세요.
Deep Web은 로그인이나 방화벽 뒤에 있는 모든 것을 의미합니다—공개적으로 인덱싱되지 않은 온라인 콘텐츠 전부입니다. 예시:

병원 환자 포털
은행 내부 대시보드
기업 문서 아카이브
사설 데이터베이스
인증 화면 뒤에 저장된 수년간의 이메일

이들은 평범하고 종종 지루하지만, 매우 가치 있는 데이터 소스입니다.

Deep Web이 중요한 이유

규모: 연구에 따르면 Deep Web은 Surface Web보다 몇 배에서 수십 배 더 큽니다.
품질: 콘텐츠가 일반적으로 더 깨끗하고 인증되며, 정확성을 중시하는 사람들에 의해 조직됩니다.
신뢰성: Surface Web은 잡음이 많고, 허위 정보, SEO 최적화, 그리고 AI 모델을 오도하거나 독살시키려는 설계가 늘어나고 있는 반면, Deep Web 데이터(예: 의료 기록, 검증된 재무 문서, 내부 데이터베이스)는 더 높은 충실도를 제공합니다.

문제점

가장 큰 장애물은 프라이버시입니다. 의료 기록과 같은 민감한 데이터를 법적·윤리적 고려 없이 대량으로 추출한다면 재앙적인 결과를 초래할 수 있습니다.

PROPS 프레임워크

Protected Pipelines (PROPS) 은 Ari Juels(Cornell Tech), Farinaz Koushanfar(UCSD), 그리고 Laurence Moroney(전 Google AI 리드)가 제안한 프라이버시‑보호 아키텍처입니다. 이는 민감한 데이터와 이를 필요로 하는 AI 모델을 원시 데이터를 절대 노출하지 않고 연결합니다.

PROPS 작동 방식

Permission – 데이터 소유자는 자신의 포털(예: 건강 기록 시스템)에 로그인하고 자신의 데이터 사용을 명시적으로 허가합니다.
Privacy‑Preserving Oracle – 오라클은 신뢰할 수 있는 중개자 역할을 합니다:
- 소유자의 개인 소스에 접근해 데이터가 진본임을 검증하고, AI 시스템에 암호학적 증명을 제공합니다.
- AI는 원시 데이터를 전혀 보지 못하고, “원본 문서를 확인했으며 진본임을 증명합니다.”와 같은 진술만 받습니다.
- 기존 구현으로는 DECO 가 있으며, 이는 사용자가 보안 TLS 채널을 통해 특정 데이터를 가져왔음을 증명할 수 있게 해줍니다.
Secure Enclave – 학습은 하드웨어 기반 신뢰 실행 환경(TEE) 내부에서 이루어집니다:
- AI 모델과 개인 데이터가 엔클레이브에 로드되고, 암호적으로 봉인됩니다.
- 인간, 개발자, 외부 프로세스는 학습 중에 데이터를 검사할 수 없습니다.
Result – 학습이 끝난 후 업데이트된 모델 가중치(학습된 지식)만 엔클레이브를 떠납니다. 원시 데이터는 세션이 종료될 때까지 내부에 잠겨 있으며, 이후 안전하게 파기됩니다.

장점

데이터가 소유자 영역을 떠나지 않음 – AI는 데이터 자체가 아니라 검증 가능한 증명만 받습니다.
세분화된 동의 – 사용자는 자신이 허용하는 내용을 정확히 알 수 있으며, 기여 가치에 비례해 보상을 받을 수 있습니다.
신뢰 강화 – 데이터 소유자와 AI 시스템 간 관계가 “인계”에서 “검증된 사용”으로 전환됩니다.

PROPS 프레임워크는 현대 AI 모델이 직면한 데이터 가용성 문제에 대한 실용적이고 암호학적으로 견고한 해결책을 제공합니다.

왜 단순히 합성 데이터를 사용하지 않을까?

Some might ask: “왜 이렇게 복잡한 설정을 사용해야 하나요? 그냥 합성 데이터를 만들면 되잖아요?”

The answer is that synthetic data is a 다양성 파괴자. By definition, synthetic‑data generators reinforce the middle of the bell curve. If you have a rare medical condition that affects only 0.01 % of the population, a synthetic data generator will likely smooth it out as “noise.”

Models trained on synthetic data become progressively worse at handling outliers. PROPS solves this by creating a secure way for real people with rare conditions or unique backgrounds to opt‑in. It turns data sharing from a privacy risk into a data marketplace where valuable data receives the compensation it deserves.

Source: …

Inference Matters Too

추론도 중요합니다

Most discussions focus on training, but PROPS also has an interesting application on the inference side. 대부분의 논의는 학습에 초점을 맞추지만, PROPS는 추론 측면에서도 흥미로운 적용 사례를 가지고 있습니다.

Example: Loan Decision Workflow 예시: 대출 결정 워크플로우

Authorization – You authorize a Loan Decision Model (LDM) to talk directly to your bank.
인증 – 대출 결정 모델(LDM)이 귀하의 은행과 직접 통신하도록 권한을 부여합니다.
Verification – The bank confirms your balance via a privacy‑preserving oracle.
검증 – 은행은 프라이버시를 보호하는 오라클을 통해 귀하의 잔액을 확인합니다.
Decision – The LDM makes a decision.
결정 – LDM이 결정을 내립니다.
Result – The lender receives a verified “Yes” or “No” without ever seeing your private documents.
결과 – 대출 기관은 귀하의 개인 문서를 전혀 보지 않고도 검증된 “예” 또는 “아니오”를 받습니다.

This eliminates the risk of data leaks and makes it nearly impossible for fraudsters to submit photoshopped documents. 이는 데이터 유출 위험을 제거하고 사기꾼이 조작된 문서를 제출하는 것을 거의 불가능하게 만듭니다.

2026년에 이것이 일어나지 못하게 하는 요인은 무엇일까요?

핵심은 규모와 인프라에 있습니다.

PROPS의 가장 견고한 버전은 하드웨어 기반 보안 엔클레이브(예: Intel SGX 또는 NVIDIA의 H100 TEE) 내부에서 학습되어야 합니다.
이러한 엔클레이브는 소규모에서는 잘 작동하지만, 최첨단 LLM에 필요한 거대한 GPU 클러스터로 확장하는 것은 아직 해결되지 않은 엔지니어링 문제입니다.
대규모 클러스터를 완벽하게 암호화된 동기화 상태로 조정하는 것은 결코 쉬운 일이 아닙니다.

연구자들은 명확히 말합니다: PROPS는 아직 완성된 제품이 아니라 설득력 있는 개념 증명에 불과합니다. 하지만 경량 버전은 오늘날에도 배포가 가능합니다. 완전한 하드웨어 보장이 없더라도, 사용자에게 의미 있는 확신을 제공하는 시스템을 구축할 수 있으며, 이는 누군가에게 PDF를 이메일로 보내 달라고 요청하는 것보다 이미 개선된 형태입니다.

My Final Thoughts

PROPS는 완전히 새로운 기술이 아니라 기존 도구들의 새로운 적용입니다. 프라이버시를 보호하는 오라클은 블록체인 및 Web3 분야(예: Chainlink)에서 수년간 사용되어 왔습니다. 핵심 통찰은 동일한 도구들이 AI 데이터 위기를 해결하는 데에도 활용될 수 있다는 점입니다.

“데이터 위기”는 정보가 부족한 것이 아니라 신뢰가 부족한 것입니다. 차세대 AI를 구축하기에 충분한 데이터는 이미 존재하지만, 그 데이터는 Deep Web의 문 뒤에 가두어져 있습니다. 뱀이 꼬리를 물 필요는 없으며, 더 나은 정원을 찾기만 하면 됩니다.

Connect with Me

LinkedIn: Sabrine Bendimerad
Medium: @sabrine.bendimerad1
Instagram: tinyurl.com/datailearn