나는 내가 쓰지 않은 14개의 PR을 보고 깨어났다

발행: 1개월 전 (2026년 3월 13일 오후 12:12 GMT+9)

5 분 소요

원문: Dev.to

Source: Dev.to

Cover image for I Woke Up to 14 PRs I Didn't Write

아침에 일어나 보니 내가 작성하지 않은 14개의 풀 리퀘스트가 있었다. 내 AI가 자정부터 계속 작업을 진행했으며, 몇 주째 피하고 있던 모듈을 리팩터링하고 있었다. 대부분은 괜찮았지만, 커피 없이는 잡아내기 힘든 오류도 있었다.

이 현상이 점점 더 자주 일어난다. Karpathy의 Autoresearch 프로젝트는 밤새 수백 개의 ML 실험을 시작하고 종료한다. Claude Code는 이제 자체 체크포인트와 롤백 기능을 내장해 잘못된 작업을 되돌릴 수 있다. 사람들은 문자 그대로 잠자기 전 터미널에 내일 할 일을 미리 넣어두고 있다.

하지만 아무도 이야기하지 않는 것이 있다: 아침 리뷰 문제.

자율적인 작업을 검토하는 것은 고고학이다

코드를 직접 작성하면 모든 결정을 이해한다. 다른 사람이 코드를 작성했을 때는 diff를 보며 논리를 따라갈 수 있다. 에이전트가 47개의 커밋을 내가 자는 동안 만들었다면—당신은 고고학을 하는 셈이다. 출력물에서 의도를 역공학해야 한다.

오늘 아침 나는 에이전트가 만든 6시간 분량의 작업을 검토하는 데 한 시간 반을 썼다. 올바르다면 4배 효율적인 것이지만,

리뷰는 단순히 코드를 작성하는 것보다 더 어렵다. 나는 기능이 정상인지 sanity‑check 하는 것이 아니라 장기적인 엔지니어링 관점에서 평가하고 있었다:

우리의 추상화와 일치하는가?
인간 엔지니어라면 같은 수정을 할까?
내가 무의식적으로 기술 부채를 늘리고 있지는 않은가?

도구의 격차

시스템은 아직 이를 위해 만들어지지 않았다. git blame은 모든 라인이 에이전트의 책임일 때 쓸모가 없다. PR 설명은 무엇이 일어났는지는 알려주지만, 왜 그런 선택을 했는지, 대안은 무엇이었는지는 알려주지 않는다. 코드 작성자의 의사결정 트리를 재현할 수 없다.

실제로 도움이 되는 것

몇 가지가 도움이 되었다:

목표를 대략적으로 정의하기보다 매우 상세한 파라미터를 에이전트에 제공
전체 테스트 스위트를 실행하는 post‑commit hook을 두어 초록색(green) 코드만 검토
단일 파일에 제한을 두어 20개가 넘는 파일에 퍼지는 것을 방지

진짜 변화

내 생각에 큰 변화는 AI가 코드를 작성한다는 것이 아니다. 우리는 2년 전에도 그 단계에 도달했다. 지금은 AI가 몇 시간 동안 끊임없이 코드를 작성한다는 점이다. 이것은 개발자로서의 내 업무를 코딩에서 리뷰로 바꾸고, 자율적인 작업을 검토하는 것이 인간이 만든 코드를 검토하는 것과 근본적으로 다른 스킬이 된다. 🚀

당신은 어떤 야간 에이전트 설정을 사용하고 있나요? 아니면 아직도 모든 작업을 동기식으로 하고 있나요?

나는 내가 쓰지 않은 14개의 PR을 보고 깨어났다

자율적인 작업을 검토하는 것은 고고학이다

도구의 격차

실제로 도움이 되는 것

진짜 변화

관련 글

왜 오픈소스 AI 도구가 조용히 승리하고 있는가

트라비고

신뢰 부채: AI 생성 코드베이스에 숨겨진 프로덕션 위기

전체 Agentic 배포 파이프라인 실행: Scaffold에서 Live CloudFront까지