AI 신뢰 격차가 기업 SaaS에 의미하는 바
Source: Stack Overflow Blog
Overview
AI 코딩 도구와 관련해 개발자 커뮤니티에서 이상한 현상이 일어나고 있습니다.
Stack Overflow의 2025 설문조사에 따르면 AI 도구 채택은 계속 상승하고 있습니다: 84 %의 개발자가 현재 AI 도구를 사용하고 있거나 사용할 계획이며, 이는 2024년의 76 %에서 증가한 수치입니다(source).
하지만 동시에 이 도구에 대한 신뢰는 급격히 떨어졌습니다. 응답자 중 **29 %**만이 AI 결과가 정확하다고 신뢰하고 있으며, 이는 2024년의 40 %에서 큰 하락을 보입니다. 더 놀라운 점은, 신뢰하는 사람(33 %)보다 불신하는 개발자(46 %)가 더 많으며, AI‑생성 결과에 대해 높은 수준의 신뢰를 보이는 사람은 **3 %**에 불과합니다.
불과 1년 만에 개발자 커뮤니티는 AI 도구에 대한 조심스러운 낙관주의에서 전면적인 회의론으로 전환했으며, 채택은 가속화되었습니다. 이는 새로운 기술에 대해 사람들이 도구를 더 많이 사용할수록 신뢰도가 높아지는 일반적인 흐름과는 정반대입니다. AI 분야에서는 채택과 신뢰가 정반대 방향으로 움직이고 있으며, 이 격차는 조직이 소프트웨어에 얼마를, 어떻게 투자할지 결정하는 데 실질적인 영향을 미칩니다. 이제 자세히 살펴보겠습니다.
왜 단절이 비합리적인 것이 아닌가
처음 보면, 사용량과 신뢰 사이의 격차는 비합리적으로 보일 수 있습니다: 왜 사람들은 신뢰하지 않는 도구를 계속 사용할까요? AI 신뢰 격차에 대한 최근 심층 분석에서 우리는 개발자들이 현재 AI 상황에 대해 보이는 반응이 왜 완전히 합리적인지, 그리고 그것이 개발자들이 누구이며 무엇을 중요하게 여기는지를 어떻게 드러내는지 탐구했습니다.
“개발자들은 반사적으로 변화를 거부하지도 않고, 먼저 가치가 추가되는지를 확인하지 않은 채 AI를 워크플로에 통합하려는 과도하게 열정적이지도 않습니다. 그들은 자신이 일에 대해 생각하도록 훈련받은 핵심적인 측면을 의문시하는 패러다임 전환을 탐색하려는 전문가들입니다.”
AI 도구가 특정 작업(보일러플레이트 코드, 문서화, 빠른 조회/직감 검사)에서 제공하는 생산성 향상은 실제이며 측정 가능합니다. 하지만 이제 개발자들은 이러한 도구와 충분히 작업하면서 독특하게 위험한 실패 모드, 즉 그럴듯하게 들리지만 실제로는 틀린 답변을 인식하게 되었습니다.
이 실패 모드는 예를 들어 명확한 오류를 발생시키는 깨진 함수보다 AI 오류를 더 은밀하게 만듭니다. 근본적으로 결함이 있지만 자신 있게 전달된 AI 출력은 이미 충분히 알고 있어 실수를 잡아낼 수 있는 개발자를 필요로 합니다. 이런 의미에서 제 동료 Ryan Donovan이 지적했듯이, 개발자들의 AI에 대한 불신은 실제로 좋은 일일 수 있습니다. 주니어 개발자나 익숙하지 않은 분야에서 문제를 해결하려는 사람에게는 인간 경험과 판단이라는 안전망이 사라집니다.
예상대로, 이러한 역학은 특정 출력에 대한 신뢰뿐만 아니라 AI 전반에 대한 신뢰도 약화시킵니다. 몇 번의 완전히 그럴듯한 환각에 속아 넘어가면, AI 출력을 꼼꼼히 검증하기 시작하게 됩니다. 물론 그 검증에 소요되는 시간은 AI가 처음에 약속한 효율성 향상을 감소시킵니다.
SaaS 구매 결정에 대한 의미
SaaS 플랫폼, 특히 핵심 워크플로에 AI 기능이 내장된 플랫폼을 평가하고 있다면, 신뢰 격차/역설을 결정 요소에 반드시 포함시켜야 합니다. 결국, 개발자에게 원하는 도구와 필요한 도구를 제공함으로써 도구 채택을 촉진하고 AI 투자에 대한 수익을 실현하는 가장 좋은 방법이기 때문입니다.
이를 염두에 두고, 현재 SaaS 구매 결정을 내리고 있는 분들을 위한 권장 사항은 다음과 같습니다:
-
AI가 실제로 작업을 수행하는 위치와 오류가 발생했을 때의 상황을 물어보세요.
이메일 제목을 제안하는 AI 기능과 컴플라이언스 보고서를 생성하거나 보안 취약점을 찾아내거나 고객 레코드를 채우는 AI 기능은 큰 차이가 있습니다. 위험 수준도 크게 다릅니다. 평가할 가치가 있는 공급업체라면 AI 출력이 실제로 부담을 지는 부분과 그 출력이 잘못됐을 때 적용되는 가드레일에 대해 명확히 답변할 수 있어야 합니다. -
공급업체 주장의 회의론을 개발자가 AI 출력에 대해 갖는 회의론과 동일하게 적용하세요.
AI 또는 마케팅 분야에 종사하는 사람이라면 누구나 알겠지만, AI에 대한 마케팅 용어는 기술적 현실과 거리가 멀 수 있습니다(자율주행 차, 생각해 보셨나요?). “AI‑powered”라는 문구만으로는 정확도, 신뢰성, 감사 가능성에 대해 아무것도 알려주지 않습니다. 공급업체에게 구체적인 사항을 물어보세요: 알려진 실패 모드는 무엇인가? 정확도는 어떻게 측정되는가? 인간 검토 단계가 있는가? AI가 잘못됐을 때의 구제책은 무엇인가? -
도구가 불확실성을 어떻게 처리하는지 고려하세요.
가장 신뢰할 수 있는 AI 구현은 단순히 답변을 제공하는 것에 그치지 않고, 신뢰 수준을 전달하고, 엣지 케이스를 표시하며, 가시성을 제공합니다. 모든 AI 출력에 동일한 신뢰 수준을 부여하는 플랫폼은 앞서 언급했듯이 심각한 회의론을 불러일으켜야 합니다. 자신의 한계에 대해 인식하고 투명하게 공개하는 도구는 만들기 어렵지만, 실제 환경에서 더 잘 견딥니다. -
검증 비용을 고려하세요.
사용자가 AI 도구를 신뢰하지 못하면 출력을 이중·삼중으로 확인하게 되며, 이는 AI를 사용해 시간과 정확성을 향상시키려는 목적을 무색하게 합니다. SaaS 도구의 AI 기능을 평가할 때, “절약된 시간” 중 얼마가 출력 감사를 위해 사용될지를 물어보세요.
AI 신뢰 격차에 대한 우리의 장기 논의에서 언급했듯이, 엔지니어링 팀이 AI 도구를 신뢰하지 않으면 규모를 확장하는 것은 사실상 불가능합니다. 압박을 받으면 팀은 익숙하고 신뢰하는 수동 프로세스로 되돌아갑니다. 보안 및 프라이버시 팀은 특히 규제가 엄격한 환경에서 낯선 도구 도입을 경계합니다. 따라서 신뢰 격차를 해소하는 것은 선택 사항이 아니라, 소프트웨어 개발에서 AI가 약속한 이점을 실현하기 위한 전제 조건입니다.
AI 도입 딜레마
범위가 좁은 파일럿 프로그램은 성공할 수 있지만, 조직 전체에 채택을 이끌어내지 못한다면 AI 투자에 대한 수익을 실현하기 어려울 것입니다.
현재 상황이 복잡한 이유는 조직이 AI 도구를 완전히 신뢰할 수도, 완전히 배제할 수도 없는 상태이기 때문입니다. 생산성 향상 효과는 실제로 존재합니다(특히 적절한 작업에 한해서) 그리고 기술은 계속 개선되고 있습니다. 84 %라는 채택률은 거품이 아니라, AI 도구가 일관된 신뢰성은 아니더라도 실제적인 유용성을 반영합니다.
Stack Overflow 개발자 설문조사가 명확히 보여주듯, 개발자들은 AI 도구를 계속 사용하려 하지만, 결과를 검증하고 실패 모드를 이해·대응할 수 있는 능력을 원합니다.
기업이 해야 할 일
- 개발자의 신뢰를 얻기 위해 그들의 전문성에 맞는 수준을 제공한다.
- 벤더에게 더 까다로운 질문을 제시해 기능, 제한 사항, 데이터 처리 방식을 확인한다.
- 기술 팀과 협력하여 AI 도구가 실제로 할 수 있는 일을 기준으로 조달 기준을 마련한다, 단순히 약속만을 기준으로 하지 않는다.