Karpathy가 연구자를 자동화했다: autoresearch가 AI 개발의 미래에 의미하는 바
Source: Dev.to
Alex Chen에 의해
설정 – 세 파일이 모든 작업을 수행합니다
| 파일 | 역할 |
|---|---|
prepare.py | 상수, 데이터‑prep, 토크나이저 학습. 고정 – 에이전트가 절대 건드리지 않음. |
train.py | 전체 GPT 모델, 옵티마이저 (Muon + AdamW), 그리고 학습 루프. 에이전트가 수정하는 유일한 파일. |
program.md | 에이전트를 위한 마크다운 지시사항. 인간이 수정하는 유일한 파일. |
루프 – 무자비하게 간단하게
- 에이전트가
program.md를 읽어 연구 조직의 목표를 이해한다. - 에이전트가
train.py를 수정한다 – 아키텍처, 하이퍼파라미터, 옵티마이저, 배치 크기, 모든 것. - 훈련이 정확히 5 분 (실제 시간) 동안 실행된다.
- 측정 지표:
val_bpb(validation bits‑per‑byte) – 값이 낮을수록 좋다. - 성능이 향상되면 → 변경을 유지; 그렇지 않으면 → 버린다.
- 하룻밤 동안 반복한다.
- 시간당 약 12개의 실험을 수행하면 잠자는 동안 대략 100개의 실험을 수행한다.
- 아침에 에이전트가 시도한 내용, 성공한 것, 실패한 것의 로그를 확인할 수 있다.
왜 5‑분 예산이 중요한가
- 에이전트가 무엇을 바꾸었든 (모델 크기, 시퀀스 길이, 어텐션 패턴, 옵티마이저 설정 등) 모든 실험을 비교 가능하게 만든다.
- 자동연구가 특정 하드웨어에 최적화하도록 강제한다 – RTX 3090에서 5분 안에 최고의 모델은 H100에서 5분 안에 최고의 모델과 다르다.
인사이트: 대부분의 커버리지는 놓치고 있다
| 전통적인 ML 연구 워크플로우 | autoresearch 워크플로우 |
|---|---|
| 인간이 논문을 읽는다 → 가설을 세운다 → 훈련 코드를 수정한다 → 실험을 실행한다 → 결과를 분석한다 → 정신 모델을 업데이트한다 → 반복한다 | 인간이 program.md(연구‑org 지시사항)를 작성한다 → AI 에이전트가 내부 루프를 무한히 실행한다 |
인간이 한 단계 높은 추상화 수준으로 이동했다.
이제 파이썬을 프로그래밍하는 것이 아니라, 마크다운으로 연구 방법론을 프로그래밍하고 있다. AI가 파이썬을 수행한다.
“당신은 AI 에이전트에 컨텍스트를 제공하고 자율 연구 조직을 설정하는
program.md마크다운 파일을 프로그래밍하고 있다.” – Karpathy
program.md는 당신의 메타‑프로그램이다. 그것은 다음을 인코딩한다:
- 시도해볼 가치가 있는 것에 대한 당신의 가설.
- 평가 기준.
- 아키텍처 선행 지식.
에이전트는 당신의 컴파일러이다.
저장소의 기본 program.md는 의도적으로 최소한으로 구성되어 있다 – Karpathy는 이를 열린 연구 영역으로 남겨두었다. 다음 명백한 단계는 연구‑org 지시사항 자체를 반복하는 것으로, 즉 가장 빠른 연구 진행을 이끌어내는 “org 코드”를 메타 최적화하는 것이다.
Source: …
자율 시스템에서 나타나는 일반적인 패턴
observe current state → propose a change → apply the change →
measure outcome against objective → keep if better, discard if worse → repeat- 이것은 힐‑클라이밍이지만 소프트웨어‑수정 수준에서 이루어집니다.
- 에이전트는 단순히 하이퍼파라미터 공간을 탐색하는 것이 아니라 모델을 학습시키는 프로그램 공간을 탐색합니다.
같은 루프가 재귀적 자기 개선 (RSI) 프레임워크에서도 나타납니다:
| Autoresearch | RSI Agent‑Infrastructure |
|---|---|
| ML 실험 코드와 검증 손실을 대상으로 작동 | 도구 설정, 스킬 파일 및 과제 성공률을 대상으로 작동 |
탐색 공간 = train.py (모델 정의, 옵티마이저, 학습 루프) | 탐색 공간 = 인프라 스크립트, 라우팅 로직, 스킬 모듈 |
두 경우 모두 시도 → 측정 → 유지/버림 사이클이며, 차이는 추상화 수준에 있습니다. 이러한 수렴은 일반 원칙을 시사합니다: 개선 단위는 실험이며, 연구자의 역할은 실험 공간을 설계하는 것입니다.
Concrete Search Space in autoresearch
train.py에는 전체 GPT 모델 정의, Muon + AdamW 옵티마이저, 그리고 학습 루프가 포함되어 있습니다. 모든 것이 자유롭게 변경 가능합니다:
- Transformer 아키텍처 (깊이, 폭, 어텐션 헤드)
- 어텐션 패턴 (기본값은 “SSSL” – 교대로 적용되는 밴디드 어텐션)
- 옵티마이저 설정 및 스케줄
- 배치 크기 및 시퀀스 길이
- 정규화 전략
- 에이전트가 구현하고자 하는 새로운 아키텍처 구성 요소
에이전트는 아무리 창의적인 변경도 할 수 있습니다 – 미리 정의된 파라미터에 대한 그리드 서치에 제한되지 않습니다. 충분히 능력 있는 에이전트는 다음과 같은 작업을 수행할 수 있습니다:
- 플래시‑어텐션 변형 구현
- 새로운 정규화 방식 제안
- 위치 인코딩 변경
유일한 제약은 5분 학습 예산과 단일 파일 편집 범위뿐입니다.
핵심 포인트: 탐색 공간은 사전에 정의되어 있지 않습니다. 이는
program.md에 일부 정의되고, 나머지는 에이전트 자체의 코드 생성 능력에 의해 결정됩니다. 최첨단 모델이 개선될수록 동일한 프레임워크는 인프라스트럭처 변경 없이 더 강력해집니다.
이것이 ML 연구자에게 의미하는 바
autoresearch에 의해 자동화된 부분 | 현재 인간이 담당하는 부분 (당분간) |
|---|---|
| 구현 가설 생성 | 목표 메트릭 정의 |
| 학습 코드 작성 | 평가 설정 설계 |
| 실험 실행 | program.md 작성 – 연구 직관 인코딩 |
| 성능 향상에 기여한 변경 사항 추적 | 높은 수준에서 결과 해석 |
| 이전에 실패한 접근 회피 | 작업할 문제 결정 |
패턴을 확인하세요: 인간은 고수준 전략적 역할(목표 설정, 메트릭 설계, 문제 선택)을 유지하고, AI는 저수준 실행(코드 생성, 실험 실행, 기록 관리)을 담당합니다.
TL;DR
- **Karpathy의
autoresearch**는 단순히 실험을 자동화하는 것이 아니라 실험자 자체를 자동화합니다. - 인간은 **
program.md**를 작성합니다 – AI에게 무엇을 탐색할지 알려주는 메타‑프로그램입니다. - AI는 **
train.py**를 반복적으로 수정하고, 5‑분짜리 학습 작업을 실행하며, 개선된 결과를 유지합니다. - 이 루프는 더 넓은 자율‑시스템 패턴을 반영합니다 (관찰 → 제안 → 적용 → 측정 → 유지/폐기).
- 모델이 개선될수록 동일한 최소 인프라가 확장되어 연구자들을 추상화 단계에서 더 높은 단계로 끌어올립니다.
ML 연구에 종사한다면, 구현 코드를 작성하는 것이 아니라 연구 방법론을 어떻게 프로그래밍할지에 대해 생각해 보세요. AI 개발의 미래는 파이썬을 쓰는 것보다 자율 에이전트가 무거운 작업을 대신하도록 지시문을 작성하는 쪽으로 이동할 가능성이 높습니다.
목표 설정 및 해석 레이어
execution layer가 자동화되고 있습니다. 이는 연구에만 국한된 것이 아니라 지식 작업 전반에 걸쳐 일어나고 있습니다. 하지만 현재는 ML research에 특히 적용되고 있는데, 자동화를 수행하는 기술 자체가 ML이라는 점이 아이러니합니다.
Practical Implication
- 중요한 기술은 “can you implement a transformer?” 가 아니라 – 이는 점점 기본 요건이 되고 있다.
- 중요한 기술은 **“can you write a
program.mdthat produces good research?”**이다.- 이는 가설을 에이전트 지시문으로 인코딩할 만큼 문제 영역을 깊이 이해해야 한다.
- 이는 연구 실행보다 research design에 더 가깝다.
자동연구의 과소평가된 측면: 시간 경제학
이전에는 밤새 실험을 진행하는 연구자가 하나의 신중히 선택된 실험을 수행하는 단일 연구자였으며(높은 설정 비용, 제한된 주의력).
자동연구는 “하룻밤”을 ≈ 100개의 실험으로 전환시켜, 동일한 고정된 시간 예산 내에서 모든 실험이 서로 깔끔하게 비교될 수 있게 합니다.
- 잘못된 가설의 비용이 크게 감소합니다.
program.md에 파격적인 아이디어를 포함시켜도 괜찮습니다. 에이전트가 작동하지 않으면 이를 버리고, 그 결과를 아침 로그에서 확인할 수 있기 때문입니다.- 성공적인 실험은 자동으로 드러납니다.
연구 병목 현상의 전환
병목 현상이 실험 처리량에서 가설 생성 품질로 이동하고 있습니다—바로 최첨단 모델이 강점을 보이고 있는 영역입니다.
Karpathy’s Framing
“코드베이스의 10,205번째 세대, 인간의 이해를 넘어선 자체 수정 바이너리 — 이것은 공상 과학이지만, 그 궤적은 분명히 현실이다.”
What Autoresearch Demonstrates
It isn’t just “AI can write training code.” It shows that the research loop itself—the cycle of
- Hypothesis →
- Implementation →
- Experiment →
- Evaluation →
- Iteration
—can be automated at a level that’s useful right now, on a single GPU, with three files.
새로운 메타‑스킬
- 성공하는 연구자는 가장 깔끔하게 주의를 구현할 수 있는 사람은 아니다.
- 그들은 문제를 충분히 이해하여 연구 조직을 프로그래밍할 수 있는 사람들이다—올바른 가설, 올바른 탐색 공간, 그리고 올바른 성공 기준을 인코딩하는
program.md를 작성하는 사람들.
프로그램 자체가 아니라 프로그램을 프로그래밍한다.
이것이 새로운 메타‑스킬이다.
Author
Alex Chen은 자율 에이전트 인프라를 구축한다. 의견은 운영적이며 학문적이지 않다.