아무도 모델링하지 않는 기업 위험: AI가 배워야 할 전문가들을 대체하고 있다
Source: VentureBeat
AI 시스템이 지식 작업에서 계속 개선되려면, 자율적인 자체 개선 메커니즘이 신뢰할 수 있거나, 오류를 잡아내고 고품질 피드백을 생성할 수 있는 인간 평가자가 필요합니다. 업계는 전자를 위해 막대한 투자를 해왔습니다. 두 번째에 대해서는 거의 생각하지 않고 있습니다.
저는 인간 평가 문제를 모델 능력을 구축하는 데 쏟는 만큼의 엄격함과 투자를 해야 한다고 주장합니다. 주요 기술 기업들의 신입 채용은 2019년 이후 절반으로 줄었습니다. 문서 검토, 1차 연구, 데이터 정제, 코드 리뷰: 이제 모델이 이를 처리합니다. 이를 추적하는 경제학자들은 이를 ‘대체’라고 부르고, 이를 실행하는 기업들은 ‘효율성’이라고 부릅니다. 어느 쪽도 미래 문제에 초점을 맞추고 있지 않습니다.
지식 작업에서 자체 개선에 한계가 있는 이유
가장 명백한 반론은 강화 학습(RL)입니다. AlphaZero는 인간 데이터 없이 바둑, 체스, 쇼기에서 초인적인 수준을 학습했고, 그 과정에서 새로운 전략을 만들어냈습니다. 2016년 이 세돌과의 대국에서 전문가들이 절대 두지 않을 것이라던 37번째 수는 인간 주석에서 나온 것이 아니라 AI 자체 플레이에서 등장했습니다.
이를 가능하게 한 것은 환경의 안정성입니다. 37번째 수는 고정된 바둑 상태 공간 안에서의 새로운 수였습니다. 규칙은 완전하고, 모호함이 없으며, 영구적입니다. 더 중요한 것은 보상 신호가 완벽하다는 점입니다: 승패가 즉시 결정되고 해석의 여지가 없습니다. 시스템은 언제나 그 수가 좋은지 알 수 있습니다—게임은 결국 명확한 결과로 끝나기 때문이죠.
지식 작업은 이러한 특성을 갖추고 있지 않습니다. 어떤 전문 분야든 규칙은 역동적이며, 그 분야에서 일하는 인간에 의해 지속적으로 재작성됩니다. 새로운 법이 제정되고, 새로운 금융 상품이 발명됩니다. 2022년에 통했던 법률 전략이 해석이 바뀐 관할구역에서는 실패할 수 있습니다. 의료 진단이 옳았는지는 수년 뒤에야 알 수 있습니다. 안정적인 환경과 명확한 보상 신호가 없으면 루프를 닫을 수 없습니다. 모델에게 계속 가르치기 위해서는 평가 체인에 인간이 필요합니다.
형성 문제
오늘날 구축되는 AI 시스템은 바로 그 형성을 겪은 사람들의 전문성을 학습했습니다. 차이점은 그 형성을 만들던 초급 직업이 먼저 자동화되었다는 점입니다. 즉, 차세대 잠재 전문가들은 인간 평가자를 루프에 두는 데 가치가 되는 판단력을 축적하지 못하고 있다는 것입니다.
역사에는 지식이 사라진 사례가 있습니다. 로마 콘크리트, 고딕 건축 기술, 수세기에 걸쳐 회복된 수학 전통 등. 하지만 모든 경우 외부 요인—전염병, 정복, 지식을 보관하던 기관의 붕괴—이 원인이었습니다. 여기서 다른 점은 외부 힘이 필요 없다는 것입니다. 분야는 재앙이 아니라 수천 개의 개별적인 합리적 경제 결정—각각은 고립된 상황에서는 타당하지만—에 의해 위축될 수 있습니다. 이는 새로운 메커니즘이며, 우리는 그것이 일어나는 동안 이를 인식할 실무 경험이 거의 없습니다.
전체 분야가 조용해질 때
논리적 한계에서 보면, 이것은 단순히 파이프라인 문제만이 아닙니다. 전문가 자체에 대한 수요 붕괴입니다.
예를 들어 고급 수학을 생각해 보세요. 우리는 수학자를 교육을 멈추어서 위축되는 것이 아니라, 조직이 일상 업무에 수학자를 필요로 하지 않게 되면서 위축됩니다. 수학자가 될 경제적 인센티브가 사라지고, 최전선 수학적 사고를 할 수 있는 사람들의 수가 줄어들며, 그 분야가 새로운 통찰을 만들어내는 능력이 조용히 사라집니다. 코딩도 같은 논리입니다. 우리의 질문은 “AI가 코드를 쓸까?”가 아니라 “AI가 모든 생산 코드를 작성한다면, 진정으로 새로운 시스템 설계를 만들어내는 깊은 구조적 직관을 누가 개발하겠는가?”입니다.
자동화된 분야와 이해된 분야 사이에는 중요한 차이가 있습니다. 오늘날 우리는 구조공학의 많은 부분을 자동화할 수 있지만, 왜 특정 접근법이 작동하는지에 대한 추상적 지식은 처음에 잘못 시도하면서 수년을 보낸 사람들의 머릿속에 살아 있습니다. 실천을 없애면 실무자를 잃는 것이 아니라, 잃은 것을 알 수 있는 능력 자체를 잃게 됩니다.
고급 수학, 이론 컴퓨터 과학, 깊은 법률 논증, 복합 시스템 아키텍처: 알제브라의 한 하위 분야를 깊이 이해하던 마지막 인물이 은퇴하고, 자금이 끊겨 대체자가 나타나지 않으면, 그 지식은 당분간 재발견되기 어려울 것입니다.
그것은 사라진 것이고, 모델이 그들의 작업을 기반으로 학습했기 때문에 또 다른 10년 동안 벤치마크에서 여전히 좋은 성능을 보이기 때문에 아무도 눈치채지 못합니다. 저는 이를 ‘속이 빈’ 현상이라고 부릅니다: 표면적인 능력(모델이 여전히 전문가처럼 보이는 출력을 생성)은 남아 있지만, 그 전문성을 검증·확장·수정할 인간 능력은 조용히 사라집니다.
루브릭이 완전 대체하지 못하는 이유
현재 접근 방식은 루브릭 기반 평가입니다. Constitutional AI, AI 피드백을 통한 강화 학습(RLAIF), 모델이 모델을 평가하도록 하는 구조화된 기준은 인간 평가자에 대한 의존도를 의미 있게 낮추는 진지한 기술이며, 저는 이를 일축하지 않습니다.
그 한계는 다음과 같습니다: 루브릭은 그것을 만든 사람이 측정하려는 것을 알 때만 포착할 수 있습니다. 루브릭에 맞추어 최적화하면 루브릭을 매우 잘 만족하는 모델이 나오지만, 그것이 실제로 옳은 모델과 동일하지는 않습니다.
루브릭은 명시적이고 언어화 가능한 판단 부분을 확장합니다. 더 깊은 부분, 즉 직감·‘뭔가 이상하다’는 느낌은 루브릭에 들어가지 않습니다. 그것을 글로 적을 수 없는 이유는 먼저 경험해야 무엇을 적어야 할지 알 수 있기 때문입니다.
실제 의미
이는 개발 속도를 늦추자는 논쟁이 아닙니다. 능력 향상은 실재합니다. 그리고 연구자들이 인간 판단 없이 평가 루프를 닫는 방법을 찾을 수도 있습니다. 합성 데이터 파이프라인이 충분히 좋아질 수도 있고, 모델이 아직 상상하지 못한 신뢰할 만한 자체 교정 메커니즘을 개발할 수도 있습니다.
하지만 우리는 오늘 그것을 가지고 있지 않습니다. 그 사이 우리는 현재 격차를 메우고 있는 인간 인프라를, 의도적인 결정이 아니라 수천 개의 합리적인 부수 효과에 의해 해체하고 있습니다. 이 전환의 책임 있는 버전은 문제가 스스로 해결될 것이라고 가정하는 것이 아니라, 능력 향상에 쏟는 긴급함과 같은 속도로 평가 격차를 열린 연구 문제로 다루는 것입니다.
AI가 인간에게 가장 필요로 하는 것은 우리가 가장 보존에 소홀히 하는 것입니다. 그것이 영구적인 진실이든 일시적인 진실이든, 무시하는 비용은 동일합니다.
아흐마드 알-다흘레는 Airbnb의 CTO입니다.