Andrej Karpathy의 새로운 오픈 소스 'autoresearch'가 밤에 수백 개의 AI 실험을 실행하게 해줍니다 — 혁명적인 함의와 함께
Source: VentureBeat
Andrej Karpathy—전 Tesla AI 리드, 공동 설립자이자 OpenAI의 전 멤버로서 *“vibe coding”*이라는 용어를 만든 인물—이 X에 자신의 새로운 오픈‑소스 프로젝트 autoresearch에 대해 게시했습니다.
이것은 완성된 모델이나 거대한 기업 제품이 아닙니다: 그의 직접적인 인정에 따르면 GitHub에 허가가 관대하고 기업 친화적인 MIT License 하에 공개된 단순한 630줄 스크립트일 뿐입니다. 목표는 방대합니다: 우리가 잠자는 동안 AI 에이전트를 이용해 과학적 방법을 자동화하는 것.
“목표는 여러분의 개입 없이도 무한히 가장 빠른 연구 진행을 이끌어낼 수 있도록 에이전트를 설계하는 것입니다,”라고 그는 X에 밝혔습니다.
시스템 작동 방식
- 자율 최적화 루프 – AI 에이전트는 훈련 스크립트와 고정된 연산 예산(보통 GPU에서 5 분)을 받습니다.
- 에이전트는 자신의 소스 코드를 읽고, 개선을 위한 가설(예: 학습률이나 아키텍처 깊이 변경)을 세운 뒤 코드를 수정하고 실험을 실행하며 결과를 평가합니다.
- 검증 손실이 비트당 바이트(
val_bpb) 단위로 측정되며 개선되면 변경을 유지하고, 그렇지 않으면 되돌리고 에이전트가 다시 시도합니다.
한밤중 실행에서 Karpathy의 에이전트는 126개의 실험을 완료했으며 손실을 0.9979 → 0.9697로 낮췄습니다.
“에이전트가 전체 워크플로우를 처음부터 끝까지 스스로 수행하는 모습을 보는 것은 정말 놀라웠다,” 라고 Karpathy는 말하며, 에이전트가 그가 20년 동안 수작업으로 놓쳤던 어텐션 스케일링 및 정규화의 실수를 포착했다고 언급했습니다.
Recent results
- 에이전트를
depth=12모델을 이틀 동안 튜닝하도록 두었을 때, ≈ 700개의 자율적인 변경을 수행했습니다. - 에이전트는 ≈ 20개의 추가 개선을 발견했으며, 이는 더 큰 모델에 완벽히 전이되었습니다.
- 이러한 변경을 누적함으로써 Karpathy가 이미 잘 튜닝된 것으로 믿었던 프로젝트에서 리더보드의 “Time to GPT‑2” 지표가 2.02 h → 1.80 h 로 감소했으며 (11 % 효율 향상)했습니다.
이것은 단순한 생산성 해킹을 넘어, 지능을 다듬는 방식에 대한 근본적인 변화입니다. 코드를 위한 과학적 방법을 자동화함으로써 Karpathy는 머신러닝을 인간 사고의 속도가 아니라 실리콘의 속도로 진행되는 진화 과정으로 바꾸었습니다.
광범위한 AI/ML 커뮤니티는 X(트위터)에서 이 과정이 컴퓨터 과학을 넘어 마케팅, 건강, 그리고 기본적으로 연구가 필요한 모든 분야에 적용될 수 있음을 빠르게 인식했습니다.
자동연구가 널리 퍼지다
반응은 빠르고 바이럴했으며, Karpathy의 게시물은 > 8.6 M 조회수를 이틀 만에 기록했고, 빌더와 연구자들은 “Karpathy 루프”를 확장하기 위해 분주히 움직였습니다.
Hyperspace AI
- Varun Mathur, AI‑툴 집계 서비스 Hyperspace AI의 CEO는 단일 에이전트 루프를 피어‑투‑피어 네트워크에 분산시켰습니다. Hyperspace 에이전트를 실행하는 모든 노드는 자율 연구자가 되었습니다.
- 3월 8–9일 밤: Hyperspace 네트워크에 있는 35개의 자율 에이전트가 333개의 실험을 완전 무감독으로 수행했습니다. 그 결과는 emergent 전략의 교본이었습니다:
| 관찰 | 세부 내용 |
|---|---|
| 특징으로서의 하드웨어 다양성 | H100 GPU는 “무차별 대입” 방식으로 공격적인 학습률을 찾았고, 노트북에서 CPU‑전용 에이전트는 초기화 전략(Kaiming, Xavier)과 정규화 선택에 집중하며 영리하게 작동해야 했습니다. |
| 가십 기반 발견 | GossipSub 프로토콜을 사용해 에이전트들이 실시간으로 성공 사례를 공유했습니다. 한 에이전트가 Kaiming 초기화가 손실을 21 % 감소시킨다는 것을 발견하자, 이 아이디어는 디지털 바이러스처럼 퍼졌고, 몇 시간 안에 다른 23개의 에이전트가 해당 발견을 적용했습니다. |
| 역사의 압축 | 17 시간 만에 에이전트들은 인간 연구실(Google Brain, OpenAI)에서 약 8년이 걸린 ML 이정표—RMSNorm, tied embeddings 등—를 독립적으로 재발견했습니다. |
Source: …
매년 30개의 마케팅 실험 대신 36,500개의 실험을 실행하세요
ML 순수주의자들이 손실 곡선에 집중하는 동안, 비즈니스 세계는 다른 혁명을 목격했습니다.
Eric Siu, 광고 대행사 Single Grain 설립자는 마케팅의 “Experiment Loop”에 autoresearch를 적용했습니다:
“대부분의 마케팅 팀은 연간 약 30개의 실험을 진행합니다. 차세대는 36,500개 이상을 실행할 것입니다. 아주 쉽게.”
“그들은 잠자는 동안에도 실험을 진행할 것입니다.”
Siu의 프레임워크
- 훈련 스크립트를 마케팅 자산(랜딩 페이지, 광고 크리에이티브, 콜드 이메일)으로 교체합니다.
- 에이전트가 변수를 수정하고(제목 라인, CTA), 배포한 뒤 긍정적인 응답률을 측정하여 변경을 유지하거나 버립니다.
Siu는 이것이 특정 청중에게 무엇이 반응하는지를 보여주는 **“전용 지도”**를 만든다고 주장합니다—코드가 아니라 실험 이력으로 구축된 방어벽입니다.
“이기는 기업은 더 좋은 마케터를 갖는 것이 아니라, 더 빠른 실험 루프를 갖게 될 것입니다.” – Siu
커뮤니티 토론 및 “spoiling” 검증 세트
| Concern | Comment |
|---|---|
| The Over‑Optimization Trap | Researcher alexisthual: “그렇게 많은 실험을 진행하면 결국 ‘스포일’ 검증 세트를 **‘spoil’**하지 않을까 하는 우려는 없나요?” The fear is that agents may over‑fit to quirks of the test data rather than achieve general intelligence. |
| The Meaning of the Gains | User samionb: “0.9979 → 0.9697 로 떨어지는 것이 정말 눈에 띄나요?” Karpathy’s reply: “우리가 하는 일은 컴퓨팅당 성능을 최적화하는 것이며… 이것은 실제적이고 상당한 이득입니다.” |
| The Human Element | On X, user witcheer, Head of Growth at crypto platform Yari Finance, documented … (the discussion continues in the thread) |
자동연구 인사이트
“모델은 더 단순해짐에 따라 개선되었습니다”
팀은 Mac Mini M4에서 자체 야간 실험을 진행했습니다. 35번의 시도 중 26번은 실패하거나 충돌했지만, 7번의 성공적인 실행에서는 모델이 더 단순해질수록 성능이 향상됨을 확인했습니다. 이 통찰—덜 할수록 더 좋다—는 인간의 개입 없이 도출되었습니다.
미래: 호기심이 병목
autoresearch의 출시가 간단한 AI 지시 메커니즘 덕분에 인간의 역할이 실험자에서 실험 설계자로 이동하는 미래를 가리키고 있다.
DarkMatter, Optimization Arena, NanoClaw와 같은 도구들이 이 군집을 지원하기 위해 등장함에 따라, AI 발전의 병목은 더 이상 “육체 컴퓨터”(카르파시가 인간 뇌를 일컫는 용어) — 코딩 능력 — 가 아니라 탐색의 제약을 정의하는 우리의 능력이다.
Andrej Karpathy는 다시 한 번 분위기를 바꾸었다. 우리는 이제 단순히 모델을 코딩하는 것이 아니라, 우리가 잠자는 동안 학습하는 생태계를 심고 있다.