나는 내가 쓰지 않은 14개의 PR을 보고 깨어났다
Source: Dev.to

아침에 일어나 보니 내가 작성하지 않은 14개의 풀 리퀘스트가 있었다. 내 AI가 자정부터 계속 작업을 진행했으며, 몇 주째 피하고 있던 모듈을 리팩터링하고 있었다. 대부분은 괜찮았지만, 커피 없이는 잡아내기 힘든 오류도 있었다.
이 현상이 점점 더 자주 일어난다. Karpathy의 Autoresearch 프로젝트는 밤새 수백 개의 ML 실험을 시작하고 종료한다. Claude Code는 이제 자체 체크포인트와 롤백 기능을 내장해 잘못된 작업을 되돌릴 수 있다. 사람들은 문자 그대로 잠자기 전 터미널에 내일 할 일을 미리 넣어두고 있다.
하지만 아무도 이야기하지 않는 것이 있다: 아침 리뷰 문제.
자율적인 작업을 검토하는 것은 고고학이다
코드를 직접 작성하면 모든 결정을 이해한다. 다른 사람이 코드를 작성했을 때는 diff를 보며 논리를 따라갈 수 있다. 에이전트가 47개의 커밋을 내가 자는 동안 만들었다면—당신은 고고학을 하는 셈이다. 출력물에서 의도를 역공학해야 한다.
오늘 아침 나는 에이전트가 만든 6시간 분량의 작업을 검토하는 데 한 시간 반을 썼다. 올바르다면 4배 효율적인 것이지만,
리뷰는 단순히 코드를 작성하는 것보다 더 어렵다. 나는 기능이 정상인지 sanity‑check 하는 것이 아니라 장기적인 엔지니어링 관점에서 평가하고 있었다:
- 우리의 추상화와 일치하는가?
- 인간 엔지니어라면 같은 수정을 할까?
- 내가 무의식적으로 기술 부채를 늘리고 있지는 않은가?
도구의 격차
시스템은 아직 이를 위해 만들어지지 않았다. git blame은 모든 라인이 에이전트의 책임일 때 쓸모가 없다. PR 설명은 무엇이 일어났는지는 알려주지만, 왜 그런 선택을 했는지, 대안은 무엇이었는지는 알려주지 않는다. 코드 작성자의 의사결정 트리를 재현할 수 없다.
실제로 도움이 되는 것
몇 가지가 도움이 되었다:
- 목표를 대략적으로 정의하기보다 매우 상세한 파라미터를 에이전트에 제공
- 전체 테스트 스위트를 실행하는 post‑commit hook을 두어 초록색(green) 코드만 검토
- 단일 파일에 제한을 두어 20개가 넘는 파일에 퍼지는 것을 방지
진짜 변화
내 생각에 큰 변화는 AI가 코드를 작성한다는 것이 아니다. 우리는 2년 전에도 그 단계에 도달했다. 지금은 AI가 몇 시간 동안 끊임없이 코드를 작성한다는 점이다. 이것은 개발자로서의 내 업무를 코딩에서 리뷰로 바꾸고, 자율적인 작업을 검토하는 것이 인간이 만든 코드를 검토하는 것과 근본적으로 다른 스킬이 된다. 🚀
당신은 어떤 야간 에이전트 설정을 사용하고 있나요? 아니면 아직도 모든 작업을 동기식으로 하고 있나요?