기업에서 AI 모델이 실패하는 이유: 89% 문제

발행: (2026년 6월 6일 AM 02:45 GMT+9)
12 분 소요
원문: Dev.to

출처: Dev.to

이 글은 원래 davidohnstad.net에 게재되었습니다. Dev.to 커뮤니티에 알리기 위해 여기에도 재게시합니다.

우리는 아무도 사용하지 않는 AI 기반 공급업체 위험 평가 도구를 만들었다

우리는 14개월에 걸쳐 AI 기반 공급업체 위험 평가 시스템을 구축했습니다. 엔지니어링 팀은 모델의 재현율에 자부심을 가졌고, 보안 리더십은 이를 이사회에 경쟁 차별화 요소로 제시했습니다. 조달팀은 새로운 워크플로에 대한 교육을 받았습니다. 그런데 출시 6개월 후 사용 분석을 확인해 보니, 실제로 AI 점수를 사용한 공급업체 평가는 11%에 불과했습니다. 나머지 89%는 우리가 폐기하기로 약속한 수동 체크리스트로 돌아갔습니다. Gartner 2024 기업 AI 도입 설문조사에 따르면, 우리는 특이한 경우가 아니었습니다—기업 컴플라이언스 도구에 포함된 AI 기능의 72%가 첫 해에 30% 미만의 채택률을 보였습니다.

문제는 모델이 아니었습니다. 정밀도도 괜찮았고, 인터페이스도 깔끔했습니다. 문제는 우리가 AI가 자동화하려는 의사결정에 적합한 도구인지 여부를 묻지 않았다는 점이었습니다. 공급업체 위험에 AI를 쓸 수 있다면 써야 한다고 가정했죠. 그 가정 때문에 로드맵 자원을 1년 동안 낭비했고, 조달팀이 회피하는 제품 기능을 만들게 되었습니다.

David Ohnstad는 기업 소프트웨어 도입 전반에서 이 패턴을 반복해서 보았습니다. 비즈니스 프로세스가 요구하기 때문이 아니라 기술이 존재한다는 이유만으로 AI 기능을 출시하는 경우가 많았습니다. 격차는 기술 역량이 아니라 의사결정 구조에 있습니다. 대부분의 공급업체 위험 워크플로는 확률 점수가 필요하지 않습니다. 알려진 규칙의 일관된 적용, 감사 추적, 명확한 에스컬레이션 경로가 필요합니다. AI는 확실성이 바로 가치 제안인 프로세스에 불확실성을 도입합니다.

AI 정당화 프레임워크: 구축 전 다섯 개 관문

기업 워크플로가 AI 구현을 정당화하는지, 아니면 규칙 기반 로직이 더 큰 비즈니스 가치를 제공하는지 판단하기 위한 다섯 단계 의사결정 프레임워크입니다. 각 관문은 진행/중단 결정입니다. 관문을 명확히 통과하지 못한다면, 먼저 더 단순한 시스템을 구축하고, 이를 충분히 계측한 뒤, 사용 데이터를 기반으로 AI 도입을 재검토하십시오.

관문 1: 규모 정당화
이 워크플로가 매월 충분한 거래량을 처리하고 있어 수동 실행이 눈에 띄는 병목을 만들고 있나요? 기준은 임의적인 것이 아니라—수동 검토 시간 비용에 거래량을 곱해 계산합니다. 간단한 규칙 자동화가 구현 비용의 20%로 시간 절감의 80%를 달성한다면 AI는 이 관문을 통과하지 못합니다. 공급업체 위험의 경우, 중소 규모 기업은 연간 40~80개의 신규 공급업체를 평가합니다. 평가당 2시간이면 연간 160시간이 소요됩니다. 규칙 기반 시스템이면 충분히 감당할 수 있습니다. AI는 모델 유지보수(재학습, 드리프트 모니터링, 설명 가능성 도구) 비용이 수동 비용을 초과합니다. David Ohnstad는 한 SaaS 기업과 함께 분기당 60건의 계약을 검토하는 AI 계약 검토 시스템을 구축한 경험이 있습니다. 모델 유지에는 전담 ML 엔지니어가 필요했으며, 파라리걸이 수동으로 검토하는 것이 비용도 적게 들고 정확도도 높았습니다.

관문 2: 불확실성 허용도
비즈니스 프로세스가 확률적 출력(확률 점수)을 허용하나요, 아니면 완전한 감사 가능성을 갖춘 결정론적 결과가 필요하나요? 공급업체 위험 판단은 이진입니다: 승인, 거부, 에스컬레이션. 조달팀은 73% 위험 점수에 따라 행동하지 않으며, 문서화된 근거가 있는 ‘예/아니오’ 권고가 필요합니다. AI 모델은 확신 구간을 제공할 뿐, 절대적인 결과를 주지 않습니다. 이는 수천 건의 거래를 점수화하고 상위 2%만 조사하는 사기 탐지에는 유용하지만, 모든 결정에 인간 서명이 필수인 공급업체 온보딩에는 마찰을 일으킵니다. 워크플로에 이미 100% 출력 검토를 위한 인간‑인‑루프 단계가 있다면, AI는 병목을 없애는 것이 아니라 의사결정 로직을 가리는 전처리 단계만 추가합니다. 규칙 기반 시스템은 감사 가능한 의사결정 트리를 생성합니다: “SOC 2 보고서가 90일 이상 만료돼 공급업체를 거부”. AI 시스템은 “140개의 입력 변수에 대한 가중 피처 중요도 때문에 위험 지수 0.68점”이라는 설명을 제공합니다. 두 번째 설명은 컴플라이언스 감사에서 살아남기 어렵습니다.

관문 3: 데이터 충분성
모델이 휴리스틱보다 뛰어나게 만들 수 있을 만큼 충분한 라벨링된 학습 데이터가 있나요? 또한, 라벨링 작업을 영웅적으로 수행하지 않아도 지속적으로 데이터를 갱신할 수 있나요? 대부분의 기업 AI 프로젝트가 조용히 실패하는 지점입니다. 모델을 학습하려면 수천 개의 라벨링된 예제가 필요하고, 위험 패턴이 변할 때마다(새로운 규제, 지정학적 위험, 새로운 위협 벡터) 지속적인 라벨링이 필요합니다. “지난 3년간 수동 평가한 200개의 공급업체”가 학습 데이터이고, 보안팀이 분기당 50개의 새로운 예제를 라벨링할 여력이 없다면, 여러분은 고정된 스냅샷으로 모델을 만들게 됩니다. 모델은 빠르게 드리프트합니다. McKinsey 2023 AI 현황 보고서에 따르면, 기업 ML 모델의 67%가 18개월 이내에 성능 저하를 겪으며, 40% 미만의 조직만 자동 재학습 파이프라인을 보유하고 있습니다. 규칙 기반 시스템은 드리프트하지 않습니다—규정이 바뀔 때 규칙만 업데이트하면 되고 로직은 그대로 투명합니다.

관문 4: 실패 비용 비대칭
시스템이 잘못될 경우 어떤 일이 발생하나요? 거짓 양성 비용이 거짓 음성보다 크거나 그 반대인 경우, 그리고 배포 후 결정 임계값을 쉽게 조정할 수 없을 때 AI는 관리하기 어려운 위험을 초래합니다. 공급업체 위험에서는 거짓 음성이 치명적입니다: 나중에 데이터 유출, 규제 위반, 공급망 붕괴를 일으키는 공급업체를 승인하는 경우. 거짓 양성은 불편하지만 복구 가능—위험도가 낮은 공급업체를 거부하고, 이들이 항소하면 재검토하면 됩니다. AI 모델은 전체 정확도에 최적화돼 비대칭 비용을 반영하지 못합니다. 임계값을 조정하려면 지속적인 모니터링, A/B 테스트, 각 변경에 대한 경영진 승인이 필요합니다. 규칙 기반 시스템은 위험 허용도를 직접 인코딩합니다: “SOC 2 누락 OR 데이터 처리 부속서 미서명 OR 금수 국가에 본사 위치 → 자동 거부”. 모델 튜닝이 필요 없으며, 위험 선호도가 바뀔 때 규칙만 수정하면 됩니다.

관문 5: 설명 가능성 요구
결과를 사용자에게 전달할 때 그런 결론에 도달했는지 설명할 필요가 없나요, 아니면 모든 출력에 추적 가능한 근거가 필요하나요? 조달팀, 법무, 컴플라이언스 담당자는 블랙박스 점수를 신뢰하지 않습니다. 감사, 경영진, 때로는 거부에 이의를 제기하는 공급업체에게 결정을 방어해야 합니다. “우리 AI 모델이 귀

0 조회
Back to Blog

관련 글

더 보기 »

모바일 한여름 열풍

!Cover image for Mobile Midsommer Madnesshttps://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploa...