지식 노동의 시뮬라크럼
Source: Hacker News
표면 수준 판단의 문제
작업을 직접 다시 하지 않고 어떻게 결과물이 좋은지 알 수 있나요?
새로 출시하려는 제품에 대한 시장 분석 보고서를 받았습니다. 보고서를 읽다 보니 문제가 눈에 띕니다: 보고서 날짜가 요청한 날짜와 맞지 않고, 6개월 전 데이터입니다. 여러 단락에 명백한 맞춤법 오류가 있습니다. 일부 그래프는 라벨이 잘못 붙어 있거나 중복되었습니다.
보고서는 무시됩니다. 주요 결론을 바꾸지는 않을지라도 오타와 복사‑붙여넣기 오류가 존재한다는 것만으로도 보고서를 버리기에 충분합니다. 표면 수준에서 보고서를 보기 좋게 만들지 않은 사람은 좋은 연구를 할 만큼의 관심을 기울이지 않은 것입니다.
당신은 대리 측정값, 즉 글쓰기 자체의 겉모습을 기준으로 품질을 판단했습니다. 이것은 궁극적으로 당신이 신경 쓰는 것이 아닙니다 — 당신이 신경 쓰는 것은 보고서가 현실을 반영하고 올바른 의사결정을 이끌어 내는가 입니다. 하지만 이를 확인하는 데는 비용이 많이 듭니다. 표면 품질은 저렴하고, 측정하기 어려운 것과 어느 정도 상관관계가 있습니다.
모든 지식 노동은 이 문제를 안고 있습니다. 누군가의 작업 품질을 객관적으로 판단하려면 많은 노력이 필요합니다. 그래서 모두가 대리 측정값에 크게 의존하게 됩니다.
대리 측정값과 LLM
대리 측정값은 정렬되지 않은 인센티브를 억제해 왔습니다. LLM이 그것을 깨뜨렸습니다.
대형 언어 모델은 작업의 품질을 반드시 재현하지 않으면서도 특정 글쓰기 스타일을 시뮬레이션하는 데 뛰어납니다. ChatGPT에 시장 분석 보고서를 작성해 달라고 하면, 마치 최고 수준 컨설팅 회사의 전문가가 만든 산출물처럼 보이고 읽힙니다.
소프트웨어 엔지니어는 수천 줄의 코드를 작성할 수 있는데, 이는 고품질 코드처럼 보입니다. (잠깐이라도 코드를 훑어볼 시간이 있다면) 동료들은 AI에게 코드 리뷰를 요청하고, 리뷰는 많은 문제와 잠재적 결함을 찾아냅니다. 그리고 그 문제들은 해결됩니다. 작업의 의식은 유지되지만, 근본적인 품질은 전혀 보장되지 않습니다.
우리는 지식 노동의 모조품을 만들어냈습니다.
인센티브 불일치
인센티브는 거의 확실히 큰 문제를 야기합니다. 많은 근로자는 합리적으로 자신이 측정되는 차원에서 좋은 성과를 내고 싶어합니다. 만약 그들이 작업의 표면 수준 품질로 평가받는다면, 그들의 산출물이 대부분 LLM에 의해 작성되는 것은 놀라운 일이 아닙니다.
LLM도 같은 문제를 가지고 있습니다.
훈련 과정은 “답이 사실인가” 혹은 “답이 유용한가”를 평가하지 않습니다. 대신 “답이 훈련 코퍼스에 나타날 가능성이 있는가” 혹은 “RLHF 심사자가 답에 만족하는가”를 평가합니다. 우리는 LLM이 고품질 산출물처럼 보이는 출력을 만들도록 최적화하고 있습니다. 그리고 우리는 매우 뛰어난 최적화자를 가지고 있습니다.
굿하트의 법칙 적용
그래서 우리는 여기 있습니다. 우리는 작업의 모조품을 수행하도록 설계된 시스템을 만들기 위해 수십억을 투자했습니다. 기업들은 토큰 사용량 순위표에서 1위를 차지하기 위해 경쟁하고 있습니다. LLM 출력이 많아질수록, 누구도 그 출력에 깊이 파고들 시간은 줄어듭니다. 우리는 그저 훑어보고 “LGTM”이라고 찍고 17번째 Claude Code 세션을 여는 데에만 시간을 쓸 뿐입니다.
우리는 스스로를 굿하트의 법칙에 자동화시켰습니다.