DE 지원자 80%가 Take‑Home 과제에 AI를 사용한다. 기업은 이를 막을 수 없다.

발행: 3일 전 (2026년 6월 9일 PM 07:05 GMT+9)

14 분 소요

출처: Dev.to

저는 데이터 엔지니어링 직무의 채용 과정 양쪽 모두를 경험해 본 사람입니다. 과제형 시험을 직접 내고, 채점하고, 다른 패널리스트와 과제형 시험에 대해 논쟁했으며, 후보자로서도 제 몫을 해봤습니다. 그래서 “전체 시스템이 깨졌고, 아무도 솔직히 이야기하고 싶어 하지 않는다”는 말을 할 때, 이론적인 얘기가 아니라 실제로 눈앞에서 일어난 일을 보고 말하는 겁니다.

상황은 이렇습니다. 현재 64 %의 기업이 기술 면접에서 AI 도구 사용을 금지하고 있습니다. 그럼에도 불구하고 후보자의 35 %는 여전히 LLM을 사용하고 있는데, 이는 6개월 전 15 %에서 크게 상승한 수치입니다. 순수 기술 직무에서는 그 비율이 48 %까지 올라갑니다. 그리고 그 후보자들의 61 %가 아무도 눈치채지 못한 채 승인 기준을 통과해 다음 단계로 넘어갑니다. 금지는 서류상에만 존재하고, 실제로는 이를 따르는 사람들을 불이익하게 만드는 권고에 불과합니다.

이 부분이 저를 정말 화나게 합니다. 규칙을 지키며 과제형 시험을 수행하고, 직접 SQL을 작성하고, 파이프라인을 구축하고, 스스로 엣지 케이스를 테스트하는 데이터 엔지니어링 후보자는 이제 LLM이 몇 배 빠른 시간 안에 다듬어 준 결과물과 경쟁해야 합니다. 그리고 채용 팀은 그 차이를 구분하지 못합니다.

부정행위를 하는 사람들은 약 3 : 1의 통과율 우위를 가집니다. 이는 추측이 아니라, 2025년 7월부터 2026년 1월까지 19 368건의 인터뷰를 분석한 Fabric의 데이터입니다. AI 도구를 사용한 후보자는 61 %의 확률로 7.0 이상의 승인 기준을 넘었습니다. 정직한 후보자는? 더 느리고, 거칠고, 다듬어지지 않은 결과물을 내놓습니다. 이는 낯선 문제를 시간 압박 속에서 해결할 때 인간이 내놓는 전형적인 산출물입니다.

상황은 더 악화됩니다. 과제형 시험이 점점 부풀어 오르고 있습니다. 원래 2~~3시간 정도였던 과제가 이제는 10~~20시간에 달하는 무급 작업이 되었습니다. 전체 파이프라인 구현, 데이터 모델링, 문서화, 테스트, 프레젠테이션까지. 이런 규모라면 AI를 사용하는 것은 단순히 유혹이 아니라 경제적으로 합리적인 선택입니다. 기업은 누군가에게 파트타임 일을 무료로 시키고, 가장 효율적인 도구를 사용한 사람을 처벌하고 있는 셈이죠.

20시간짜리 과제가 부정행위 유인을 만들었습니다. 기업들은 “편견 감소”라는 명목으로 라이브 코딩에서 장시간 과제로 전환했으며, 그 결과 탐지하기 어려운 AI 지원 환경을 완벽히 조성했습니다.

후보자의 83 %는 “가능하다면 AI를 사용할 것”이라고 답했습니다. 이 수치가 이렇게 낮은 것이 오히려 놀랍습니다. 여기서의 게임 이론은 전형적인 죄수의 딜레마와 같습니다: 경쟁자가 부정행위를 하고 있다고 가정한다면(통계적으로도 사실), 규칙을 따르는 것이 패배 전략이 됩니다. 진정한 후보자들은 “모두가 이미 부정행위를 하고 있다”는 전제 하에 부정행위를 강요받는다고 느낍니다.

그리고 탐지는? 연극에 불과합니다. 일부 플랫폼은 키스트로크 패턴과 탭 전환 행동을 분석해 93 % 정확도를 주장합니다. 하지만 Cluely, Interview Coder와 같은 보이지 않는 오버레이 도구는 DirectX와 Metal을 OS 수준에서 사용해 답안을 렌더링하므로 화면 공유로는 전혀 포착되지 않습니다. 인터뷰 음성을 듣는 두 번째 디바이스도 동일하게 작동합니다. 탐지 무기는 시작되기도 전에 이미 끝난 셈이죠.

이 모든 상황을 터무니없게 만드는 이중 기준: AI를 HR에 활용하는 기업의 64 %는 채용·면접 전 과정에 AI를 적용합니다. 이들은 이력서를 AI로 스크리닝하고, AI로 면접 질문을 생성하며, AI로 답변을 점수 매깁니다. 그런데 후보자는 AI 사용이 금지됩니다. “정직성”이라는 명목이죠.

아마존은 AI 사용이 적발된 후보자를 명시적으로 실격 처리합니다. 골드만삭스는 캠퍼스 리크루트에게 “ChatGPT, Google, 혹은 외부 AI 도움을 절대 사용하면 안 된다”고 전달했습니다. 고상한 정책이지만 실행 메커니즘은 없습니다. 두 기업 모두 이를 감지할 신뢰할 만한 방법이 없으며, 실행은 후보자의 자진 신고나 라이브 후속 질문에 의존합니다.

엔지니어링 리더의 71 %는 AI가 기술 역량 평가를 어렵게 만든다고 인정하지만, 62 %는 위반을 감지할 수 없다는 사실을 알면서도 여전히 금지합니다. 이것은 정책이 아니라 기도에 가깝습니다.

탐지 도구 자체는 쓸모 없을 정도로 형편없습니다. Turnitin, GPTZero와 같은 플랫폼에 번들된 AI 탐지기는 2026년 여러 분석에 따르면 “점점 더 틀린다”는 평가를 받습니다. 후보자가 LLM에 새로운 해결책을 생성하도록 프롬프트하면, 표절 검사 소프트웨어는 이를 원본 작업으로 플래그합니다(실제로 원본이기 때문). 도구마다 거짓 양성 비율이 1 %에서 30 %까지 다양합니다. 즉, 정직한 후보자는 우연히 코드가 유사하다는 이유로 플래그되고, 실제 부정행위자는 보이지 않는 오버레이 덕분에 통과합니다. 시스템은 진실을 말하는 사람보다 거짓말쟁이를 더 잘 보호합니다.

핵심 문제는 AI가 너무 뛰어나서가 아니라, 대규모로 해결할 수 없는 문제라는 점입니다. 후보자는 GPT‑4에 프롬프트를 주어 완전히 새로운, 표절되지 않은 코드를 생성할 수 있고, 정적 분석만으로는 후보자의 사고 과정을 알 수 없으므로 원본 여부를 구분할 방법이 없습니다. 규모에 맞는 탐지는 프로세스 가시성—페어 프로그래밍, 타임스탬프가 찍힌 초안, 대면 워크스루—뿐이며, 기업들은 비용 효율성 때문에 이를 꺼립니다.

한 기업이 “우리 과제 제출물의 80 %가 LLM을 사용했다”는 데이터를 보여줬을 때의 반응은? 부정행위를 무시하고 상위 퍼포머만 다음 라운드로 넘겼습니다. 이것은 채용 프로세스가 아니라 항복입니다.

업계는 아직 해결책에 합의하지 못했습니다. 최소 세 가지 서로 맞지 않는 접근법이 존재하고, 현재 데이터 엔지니어링 구직 중이라면 이 모든 방식을 이해해야 합니다.

AI‑필수 캠프

Meta는 2025년 10월에 AI 지원 면접을 출시했습니다. 후보자는 CoderPad에서 GPT‑4o, Claude, Gemini, Llama 중 하나에 접근해 작업합니다. 평가 항목은 AI 활용 능력, 프롬프트 엔지니어링, 출력 검증, 디버깅입니다. 이 회사는 2026년에 모든 백엔드·운영 역할에 확대할 계획입니다. Canva는 더 나아가 “Computer Science Fundamentals” 면접 전체를 “AI‑Assisted Coding”으로 교체했습니다. 백엔드, ML, 프론트엔드 직무 모두 후보자는 Copilot, Cursor, Claude 중 하나를 사용해야 합니다. 문제는 단일 프롬프트로 해결할 수 없도록 설계돼 있어, 반복적인 사고와 판단이 필요합니다.

이 기업들이 찾는 신호는 “도움을 받지 않고 코딩할 수 있느냐”가 아니라 “AI를 올바르게 지시하고, 오류를 잡아내며, 모든 설계 결정을 방어할 수 있느냐”입니다. 이 라운드를 통과한 후보자는 더 뛰어난 프롬프터라기보다 무엇을 만들고 싶은지 알고, AI가 틀린 부분을 포착하고, 왜 그런 선택을 했는지 설명할 수 있었습니다.

금지‑그리고‑희망 캠프

아마존과 골드만삭스가 여기 해당합니다. 명시적 금지, 신뢰 기반 집행, 감지 수단 부재. 금지 정책을 시행하는 기업 중 30 % 미만만이 실제로 인터뷰어를 부정행위 탐지 교육시켰습니다. 정책은 법적 보호를 위한 것이지 결과를 바꾸려는 목적은 아닙니다.

하이브리드 캠프

현재 기업의 41 %는 과제형 시험 뒤에 동시 방어 세션을 추가합니다. 집에서 작업을 수행하고(어떤 도구를 쓰든), 이후 엔지니어와 30분 정도 만나서 직접 설명합니다. 여기서는 LLM 도움의 효과가 사라집니다. 자신의 솔루션을 스스로 설명하고, 실시간으로 수정하며, 대화 중에 엣지 케이스를 다룰 수 없다면 과제 점수는 의미가 없습니다. 이 방식은 암묵적인 표준으로 퍼지고 있는데, 이는 기업이 실제로 중요하게 생각하는 역량을 테스트할 수 있는 유일한 포맷이기 때문입니다.

방어 세션에서 인터뷰어가 눈여겨 보는 레드 플래그: 설명과 코드 불일치(구두 추론이 코드와 모순), 시연 수준을 넘어선 용어 사용(주니어가 깊이 설명하지 못하는 아키텍처 패턴을 언급), 그리고 매

DE 지원자 80%가 Take‑Home 과제에 AI를 사용한다. 기업은 이를 막을 수 없다.

AI‑필수 캠프

금지‑그리고‑희망 캠프

하이브리드 캠프

관련 글

LongMemEval에서 메모리 방식이 전체 컨텍스트를 앞섰다 — 우리가 놓친 승리

Eidentic 소개

Typescript의 타입

AgentForge – AI 에이전트가 신뢰할 수 있는 코드를 배포하도록 하는 28가지 프로덕션 급 스킬