Technical Interviews Reject the Wrong Engineers
출처: Hacker News
20년간의 관찰, 50년간의 연구, 그리고 후보자가 아닌 인터뷰 자체를 측정하는 프레임워크
2026년 5월 11일
—
스킬 스펙트럼: Dreyfus 기술 습득 모델을 전문가 후보와 고급 초보 인터뷰어에 적용한 시각화
대부분의 기업은 채용을 필터링 과정으로 생각합니다. 후보자를 여러 라운드에 넣고, 충분히 많은 질문을 하면 좋은 사람만 살아남는다고 믿죠. 문제는 그 필터가 깨졌다는 겁니다. 잘못된 요소를 선택하고, 평가할 수 없는 사람을 배제하며, 실패했을 때 팀이 생각보다 큰 비용을 치르게 됩니다.
저는 15년 넘게 기술 인터뷰를 관찰하고 연구해 왔습니다. 인터뷰어가 기대한 방식대로 문제를 풀지 못해 뛰어난 엔지니어가 탈락하는 모습을 보았고, 올바른 LeetCode 패턴을 연습한 평범한 엔지니어가 채용되는 경우도 목격했습니다. 그리고 기업들은 “잘못된 채용 비용”이라는 통계를 인용하면서도, 실제 출처를 찾을 수 없는 상황을 반복하고 있습니다.
이 글에서는 연구 결과가 말하는 바, 일반적인 도구들이 왜 무너지는지, 그리고 제가 만든 인터뷰 품질 자체를 측정하는 프레임워크에 대해 다룹니다.
잘못된 판단의 비용은… 잘못된가?
미국 노동부가 “잘못된 채용은 첫 해 급여의 30%에 해당한다”고 주장하는 것을 들어보셨을 겁니다. 원본을 찾아보니 존재하지 않았습니다. 노동부 발표도, 보고서 제목도, URL도 없었습니다. 모든 기사들은 무한 루프처럼 같은 출처를 인용하고 있죠. 하버드 비즈니스 리뷰에 “이직의 80%는 잘못된 채용 결정 때문”이라는 수치도 마찬가지로 구체적인 기사가 없습니다.
이는 학습 피라미드와 같은 현상입니다. 신뢰받는 여러 사이트가 원본 실증 자료 없이 서로의 말을 반복할 뿐이죠.
실제 연구는 덜 극적이지만 더 유용합니다.
미국 진보 센터는 2012년에 30개의 사례 연구를 검토하고, 모든 직책에 대한 평균 교체 비용이 연봉의 약 21%라고 밝혔습니다[1]. 연봉이 $75K 이하인 경우 이 비율이 유지됩니다. 고위 직책에서는 213%까지 상승합니다[1].
하지만 교체 비용은 엔지니어링 팀에 맞는 프레임이 아닙니다. 더 유용한 발견은 하우스만·마이너(Housman & Minor)의 2015년 하버드 비즈니스 스쿨 연구에서 나왔습니다. 11개 기업의 5만 명 직원을 분석한 결과, 독성 직원 하나를 없애는 것이 스타 직원 하나를 채용하는 것보다 약 두 배의 ROI를 제공한다는 것이죠. 독성 직원은 직접 교체 비용만 약 $12,489이며, 상위 1% 퍼포머는 연간 $5,303의 가치를 추가합니다[2]. 게다가 독성 행동은 팀에 전파됩니다. 한 사람이 팀에 들어오면 동료들도 비슷한 행동을 보일 가능성이 높아집니다.
가장 큰 채용 위험은 훌륭한 후보자를 놓치는 것이 아니라, 파괴적인 후보자를 받아들이는 것입니다.
왜 이 문제가 중요한가 하면, 대부분의 인터뷰 프로세스는 재능을 찾는 데 초점이 맞춰져 있습니다. 독성을 탐지하도록 설계된 프로세스는 거의 없으며, 두 목표는 서로 다른 신호를 필요로 합니다.
화이트보드 인터뷰는 후보자가 관찰하에 문제를 풀 수 있는지를 테스트합니다. 보통은 구글링해서 해결할 문제를 직접 풀게 하죠. Behroozi 등(2020)의 연구에 따르면, 관찰자가 있는 전통적인 화이트보드 인터뷰를 받은 후보자는 혼자 문제를 푼 사람의 절반 수준으로 성과가 떨어졌습니다[3]. 공개 조건에 있던 모든 여성은 실패했고, 비공개 조건에 있던 모든 여성은 통과했습니다[3].
이는 재능 필터가 아니라 불안 필터입니다.
페어 프로그래밍 인터뷰는 조금 나은 편이지만 자체적인 왜곡을 가지고 있습니다. 페어 프로그래밍은 코드를 공동으로 작성하기 위한 협업 방식으로 고안된 것이지, 시간 압박 속에서 낯선 사람의 실력을 평가하기 위한 것이 아닙니다. 팀 동료와 페어 프로그래밍을 할 때는 맥락, 용어, 신뢰가 공유됩니다. 인터뷰에서는 이런 요소가 전혀 없습니다. 후보자는 자신의 커리어에 영향을 미칠 권한을 가진 사람에게 감시당하면서 작업을 수행합니다. 이를 페어 프로그래밍이라고 부르는 것은 면접 자체를 대화라고 부르는 것과 같습니다.
더 깊은 문제는 암묵지식입니다. 숙련된 엔지니어가 아는 대부분은 즉석에서 말로 표현할 수 없는 지식입니다. 그들은 패턴을 인식하고, 설계가 6개월 뒤에 문제를 일으킬 것을 감지하며, 자신에게는 당연해 보이지만 다른 수준의 사람에게는 보이지 않는 트레이드오프를 합니다. 표준 인터뷰는 명시적 지식을 테스트하도록 설계되었습니다. “이 알고리즘을 설명할 수 있나요?”, “이 패턴을 설명해 보세요”, “당신의 사고 과정을 단계별로 말해 보세요” 같은 질문이죠.
가장 좋은 성과를 내는 후보자는 코드를 이야기하는 데 능숙한 사람이며, 이는 코드를 실제로 짜는 능력과는 별개의 스킬입니다.
일부 기업은 성격 검사를 도입해 과학성을 더하려 합니다. 기술 채용에서 가장 많이 쓰이는 두 가지는 마이어스-브릭스 유형 지표(MBTI)와 “성장 마인드셋” 검사입니다. 두 검사 모두 연구 결과가 명확합니다.
MBTI 출판사는 채용에 사용하는 것이 비윤리적이라고 명시하고 있습니다[4]. 이는 비판자가 아니라 마이어스-브릭스 회사 자체가 미국 전문 서비스 부문 수석 이사가 서면으로 밝힌 내용입니다. 마이어스·브릭스 재단의 윤리 지침에도 직접 명시돼 있습니다.
이유는 간단합니다. 테스트가 주장하는 바를 측정하지 못하기 때문입니다. Pittenger(2005)는 5주 후 재시험을 했을 때 35%의 사람들이 다른 네 글자 유형을 받는다고 보고했습니다[5]. 미국 국립 과학 아카데미는 20개 이상의 MBTI 연구를 검토한 결과, 사용을 정당화할 충분한 증거가 없다고 결론지었습니다[6]. 직무 성과에 대한 예측 타당도는 r = .10‑.20 수준으로, 동전 던지기와 비슷한 정도이며 저울에 살짝 기울어져 있을 뿐입니다.
성장 마인드셋도 마찬가지입니다. 가장 큰 메타분석(Sisk et al., 2018, 365,915명 대상)에서는 마인드셋과 성취도 간 상관계수가 r = .10에 불과해 분산의 약 1%만 설명한다고 밝혔습니다[7]. Macnamara와 Burgoyne(2023)이 품질이 가장 높은 6개 연구만 남겨 분석했을 때 효과 크기는 d = 0.02로 떨어졌습니다[8]. 이는 거의 무시해도 될 정도이며, 마인드셋 개입에 금전적 이해관계가 있는 연구자들은 독립 연구자보다 훨씬 큰 효과를 보고했습니다[8].
직장 내에서 성장 마인드셋이 직무 성과를 예측한다는 동료 검토 논문은 존재하지 않습니다. 인터뷰에서 이를 묻는 것은 유용한 정보를 전혀 얻지 못합니다.
MBTI를 채용에 사용하는 것은 비윤리적이며, Carol Dweck의 성장 마인드셋 검사는 유용한 정보를 측정하지 못합니다.
그렇다면 실제로 효과가 있는 것은? 빅 파이브(Big Five) 입니다.
빅 파이브 성격 모델(개방성, 성실성, 외향성, 친화성, 신경성)은 30년 넘는 메타분석적 근거를 가지고 있습니다. Barrick와 Mount(1991)는 성실성이 직업 성과를 예측한다는 것을 밝혔으며[9],