ML Systems: 그들이 다이어그램에서 건너뛰는 부분

발행: 3일 전 (2025년 12월 30일 오후 01:15 GMT+9)

12 min read

원문: Dev.to

Source: Dev.to

(번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.)

Source: …

생산 ML의 말하지 못한 현실

“이 고전적인 밈은 그 단순함만으로도 조직 내 ML 시스템에 대해 온라인에서 찾을 수 있는 대부분의 기사보다 더 많은 것을 설명합니다.”

표면적으로는 튜토리얼이 깔끔한 단계별 여정을 약속합니다:

목표 정의
성공 지표에 합의
데이터 수집
킬러 모델 학습
…“부엉이 나머지 부분을 그리세요.”

어려운 부분에 대한 가이드는 어디에 있나요?

1. 빠진 조각은 기술이 아니라 맥락이다

사람이 개입하면 모든 것이 달라집니다.
실제 세계의 모든 ML 시스템은 다음으로 시작합니다:

스프레드시트,
슬랙 스레드, 그리고
불가피한 질문: “잘못된 것처럼 보이면 우리가 이를 무시할 수 있나요?”

아름다운 점은 기업이 모델을 만들 수 없다는 것이 아니라—그들은 만들 수 있다는 점입니다.
문제는 이러한 모델이 확률적이고 불확실한 의사결정을 처리하도록 설계되지 않은 조직 안에서 작동해야 한다는 점입니다.

2. 기성 프레임워크가 거의 맞지 않는 이유

대부분의 사전 구축 ML 프레임워크는 다음을 전제로 합니다:

안정적인 목표
깨끗한 피드백 루프
수렴하는 지표로 표현된 성공

실제 비즈니스는 이러한 가정을 거의 충족하지 못합니다:

현실	프레임워크가 가정하는 것
분기 중간에 우선순위가 변함	목표는 고정돼 있다
이해관계자마다 인센티브가 변함	인센티브는 정적이다
신호가 부분적이거나 지연되거나 오해를 줌	신호는 깨끗하고 즉각적이다

실패는 모델이 틀렸기 때문에 발생하는 것이 아니라 – 모델이 실제 의사결정 방식과 정렬되지 않기 때문에 발생합니다.

3. 구체적인 예시

“상상해 보세요: 가격 책정 시스템, 수요 예측, 혹은 랭킹 알고리즘을 만들고 있다.”

인터넷의 ML “성경”은 다음을 말합니다:

목표 정의
데이터 수집
학습
오프라인 검증
배포
반복

깨끗하고, 재현 가능하며, 위안이 된다.

하지만 시스템이 현실에 부딪히면 균열이 생깁니다:

가격 담당자가 가격을 무시함
프로모션이 수요를 왜곡함
리더십이 하룻밤 사이에 목표를 매출에서 마진으로 전환

프레임워크가 깨진 이유는 기술적으로 결함이 있었기 때문이 아니라, 거의 모든 실제 시스템이 누리는 조직적 명확성을 가정했기 때문입니다.

4. 수학 vs. 의사결정 소유권

수학은 드물게 병목이 된다.
의사결정 소유권이 병목이다.

성숙한 조직에서는 예측, 점수, 혹은 권고를 만드는 것이 기술적으로 해결 가능하고 – 종종 “충분히 좋다” – 는 수준에 도달합니다.
하지만 남아 있는 더 큰 과제는 모델 출력이 다음과 충돌할 때 누가 책임을 질 것인가를 정의하는 것입니다:

인간 판단
레거시 프로세스
변하는 비즈니스 인센티브

예측이 상인의 직감과 충돌하거나, 가격 권고가 단기 목표를 위협하거나, 랭킹 변화가 핵심 고객을 불편하게 하면 시스템은 조직적 회색 지대에 빠집니다. 의사결정은:

연기되고
무시되고
선택적으로 적용되며 (대부분 로그가 남지 않음)

5. 실제 실패 유형

“이것은 기술적 실패가 아니라 구조적 실패다.”

어떤 튜토리얼도 설명하지 못합니다:

누가 모델을 신뢰할 권한을 가지고 있는가?
모델이 틀렸을 때 비용을 누가 부담하는가?
예외가 시스템을 통해 어떻게 전파되는가?

그 의사결정 루프에 대한 명시적 소유권이 없으면, 정확도는 허영 지표로 전락합니다 – 최적화 가능하고, 방어 가능하지만 결과와는 크게 단절된 지표가 됩니다.

6. 앞으로의 길: 예측과 행동 사이의 명확한 인터페이스

의사결정 권한 정의 – 누가 권고에 행동할 수 있는가?
오버라이드 감사 가능하게 – 누가, 왜, 언제 오버라이드했는지 로그를 남긴다.
인간 개입을 잡음이 아니라 신호로 취급 – 이를 모델에 다시 피드백한다.

생산 ML은 본질적으로 사회‑기술적이다.

예측은 인센티브, 신뢰, 책임, 판단과 상호작용합니다. 인간 행동을 무시하거나 부분적으로만 기록하면 수수료가 왜곡됩니다.

Source: …

7. 왜 대부분의 ML 시스템은 추론 단계가 아니라 회의에서 실패하는가

리더는 확실성을 요구한다 → ML은 확률을 제공한다.
중간 계층은 예측 가능성을 최적화한다 → ML은 변동성을 도입한다.

각 계층은 자신의 인센티브 내에서 합리적으로 행동하지만, 이들이 합쳐지면 확률적 시스템이 살아남기 어려운 환경을 만든다.

모델은 통계적으로 타당할지라도 자신감을 보상하고, 보정된 불확실성을 보상하지 않는 조직에 투입된다.

8. 핵심 요약

프로덕션 실패는 데이터 드리프트나 모델 노후화 때문이 아니다.
실제 마찰은 더 일찍 발생한다: 70 % 신뢰 점수가 ‘예‑아니오’ 답변을 요구하는 문화와 마주할 때.
권고가 이미 위로 전달된 계획에 도전하거나, 책임은 분산돼 있지만 비난은 즉각적일 때, ML은 직관을 확인할 때만 용인되고, 의사결정을 복잡하게 만들면 조용히 배제된다.

조직은 모델을 명시적으로 거부하지 않는다; 단지 무시한다.

프로덕션 ML 시스템은 결정을 대체할 필요는 없다; 종종 그 역할은 결정 경계를 이동시키는 것이다. 모델이 도입돼도 임계값도, 기본값도, 에스컬레이션 경로도 바뀌지 않으면, 시스템은 아직 존재하지 않은 것과 같다, 모델링이 아무리 고급이라도 마찬가지다.

많은 실패는 “더 나은 예측”이 사회‑기술적 불일치를 마법처럼 해결해 줄 것이라는 가정 아래 조용히 시작된다.

9. 지침 원칙

결정부터 시작한다.
허용 가능한 오류를 정의한다.
오버라이드 방안을 계획한다.
정확도 최적화 전에 신뢰도를 측정한다.

이것들은 선택 사항이 아니다; 현실에 살아남을 수 있는 시스템의 기반이다. 조직 역학, 인센티브, 인간 행동이 타협을 강요한다는 것을 사전에 받아들이고, 이를 반대가 아니라 설계에 반영하라.

10. 마무리 생각

실제 ML 시스템은 아키텍처 다이어그램, 모델 선택, 알고리즘 복잡성으로 정의되지 않는다—그런 요소는 수천 개가 있다. 시스템은 그들이 지원하는 의사결정, 행동을 형성하는 인센티브, 그리고 결과와 함께 살아가는 인간에 의해 정의된다. 모델은 하나의 구성 요소일 뿐이며, 예측, 행동, 책임이 일관된 루프를 형성할 때 비로소 시스템이 작동한다.

그 현실을 설계하지 않으면, 우리는 작동하는 모델은 계속 배포하고, 작동하지 않는 시스템만 계속 만들게 된다.

이 관점을 받아들일 때, ML은 순수 기술 작업이 아니라 의사결정 지원 생태계가 된다:

확률적이면서도 신뢰받는,
유연하면서도 감사 가능한,
정교하면서도 인간 판단에 맞춰진.

그것이 단순히 실행되는 것이 아니라 지속되는 프레임워크이다.